最近测试数据抓取遇到的几个问题

Q1:请问正常的台式机 火狐可以一次性打开多少界面来抓取数据呢?

查找了帮助文档,里面只有几条关于火狐配置的设置,文档好像有提及打开20个。
我电脑打开3-5个就很卡了,而且容易出现timeout。

Q2:是否可以多同一个主题多线程抓取数据呢?

配置crontab文件里面的线程只是针对不同主题的。
比如:A主题,抓取某网站列表的数据(30页),一般的操作都是打开一个页面来抓取数据,
除了修改crontab里面一些配置,不知道这个有没有加快数据抓取的方法呢。

Q3:有的时候使用crontab来抓取数据,不能滚屏到底。

开启滚屏参数同时关闭定时触发,使用手工加载主题运行,浏览器肯定能一直滚屏到底部。
使用crontab同样的操作,有的时候不能滚屏到底。

谢谢O(∩_∩)O

在线版性能

Q1:请问正常的台式机 火狐可以一次性打开多少界面来抓取数据呢?
A1:主要根据内存计算打开多少个线程,4G内存可以打开20个。如果出现替meout,那是网络太慢,最好用ADSL宽带接入,比如,4M ADSL

Q2:是否可以多同一个主题多线程抓取数据呢?
A2:多个线程可以抓取同一个主题,如果抓同一主题的线程太多,很容易被对方封锁。比如,开20个线程同时抓京东网,一会就被封锁了

Q3:有的时候使用crontab来抓取数据,不能滚屏到底。
A3:受网络速度影响很大,如果网络速度很慢,可以把scrollMorePages设置大一些,比如,30,滚屏的另一个作用就是增加等待时间

非常感谢,到时候试试。

上述问题的电脑配置是(I7,8G内存,家20M宽带),估计网络不稳定~~!

多线程抓取同一个主题,不知道如何配置?请问有没有相关的介绍呢
(还是要配置crontab2个线程是同一个主题,这样数据应该会抓取重复的吧)

不会重复

在crontab中,配置多个包含crawl类step的thread,不会重复,请参看《周期性调度文件》