同一个主题能否用多线程同时不冲突的抓取?

主要有两个问题。请高手指教。先谢谢各位。

问题1:
有一个2级抓取。分别是4000,和20000次抓取。我定义在一个周期性抓取配置文件里,在一个线程下。
现在发现速度很慢,10个小时一级抓取还没完。
想问一下。能不能,同时启动多个线程一起执行同一个主题去抓取。这样速度也能变成1/N。不知道能不能实现。怎么实现?

问题2:
周期性抓取配置文件里配置了多个线程。如何制定线程名,来启动要启动的线程呢?

多个线程并行抓取网页

可以多个线程并行抓取,线程名字随便起,但是不能重名。

目前,在线版共享的服务器用户很多,负载很重,多抓取速度有影响。尤其影响第一级抓取,因为要抓取第二级的线索,目前共享服务器上有将近5千万线索,新生成线索的速度较慢。这台服务器是一台十分老的单CPU 1U服务器,处理能力有限。

共享服务器上线索数每次达到5千万,我们会进行一次清理,以提高速度。

可能您没理解我的意

可能您没理解我的意思。我再说的具体一点吧

假设现在有一个主题需要抓取10000次(10000个网页),由于一个线程执行需要10个小时。
我要是把它设置到两个线程中,同时抓取,最后是每个线程抓5000,最后合起来是2*5000=10000么?
我测试了一个小的。好像是每个线程都全部抓取了(并不是每个线程抓取一部分)。对这个例子的话就是两个线程都抓取了10000次!!??

这样的话不但没有节省时间,反而多抓取了很多没有用途的数据。

所以,想知道。像我这种情况,最快就只能是10个小时单线程来抓取了吧??

多线程抓取不会重复

只要是同一个主题,多个线程抓取不会重复

如何配置多线程

Fuller,您好!请问要如何配置多线程抓取同一个主题呢?

用crontab.xml配置多线程

按照这个说明周期性网页抓取调度文件,crontab.xml中一个thread就是一个线程