|
可以选择多个方案:
方案1:
每次都把第二层重新抓一遍,也就是说,运行第一级的时候,凡是抓到的第二级的网址,都会重新激活线索,那么,第二级会把所有的网址再抓一遍。
手工启动的单搜和集搜,都是这个方案。
方案2:
增量抓取,也就是说,抓取第一级的时候,并不是把所有抓到的第二级网址都重新激活,而是会对比一下,如果以前抓过,就不在激活。
爬虫群模式有专门的设置项,控制是否激活已经抓过的网址。
基于以上方案,手工清除第二级线索基本上没有太大必要。但是,在抓取电商网站的时候,商品会下架,有些网址再也不需要了,可以有选择地进行清理
|
|
共 1 个关于本帖的回复 最后回复于 2017-4-28 10:03