我猜是这样的。
你的代码原理是从百度搜索后采集下数据放入你的数据库或页面,总之是先从百度上传到服务器的。
建议你不要上传文件。
之上传链接就好了。
因为向服旁含腔务器上传多个文件很慢的。一般有默认的时运衫间限制过了时间就认为页面无法打开了。
你这个就是那些软件的设置问题,我建议最好是用一些现成的软件吧,既省事又可以增加效返型谨率,自己遍的要测这测那的,麻烦!先找一个好的软件吧,假如商用,最好用正规的。不过我感觉网上找的免费的采集软件都不行,我自己也是在做采集
最好是用正规的,可以搞个试用版都比那些免费的好多了!
网络信息采集是信息化进程的重要步骤,所以又很多公司都在宣传拥有**万能采集、**采集器之类的软件,但是这些都是应用层次比较浅的技术,甚多地方都是不能做的,就比如网站限制你采集等问题,真正要高端技术或者说成熟的产品,必定是那些在采集行业很专业的公漏基司。国内在网络信息采集方面比较专业的是深圳的乐思软租薯件,你可以去他们网站找找看,可能有共享版。
能行的通。关键要素如下:
1、在你的抓取方案里面,必须使用cookie欺没山骗这个策略。否则会被淘宝识别。
2、建议使用异步抓取,在你的页面打开之后抓取。否则行宽你的页面会很晚才打开。
3、建议在采集之后,存入缓存,降低服务器请求运枯带中算的时间。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)