老大,DataScraper忘记怎么提取数据了

好久没来,老大,我用MetaStudio设置了三级抓取,分别是A,B,C,a是一级分类,b是二级分类,c是详情页,我现在怎么提取所有数据呢?具体在DataScraper操作是什么?

还有在DataScraper上右击A,进行提取,发现提取一次后,再点击提取,好像不会执行,该如何操作会再次提取最新的数据?

谢谢!

分级抓取方法

分级抓取时,抓取A时会生成B的线索,抓取B时会生成C的线索,但是,在安排DataScraper执行抓取任务的时候可以不用考虑他们的先后顺序,比如,配置一个crontab.xml文件启动多线程并行抓取,每个线程是并行运行的,互相不依赖,如果三级分成三个线程分别执行,他们是各自独立的,那可能出现一种情况:抓取B的线程运行得太早,那时A线程还没有为B生成线索,那么B线程因为没有线索可用就进入等待状态,在crontab.xml中为线程B配置一个周期参数,让这个线程等待一段时间后再次运行,那时A线程可能就为B生成了线索。调度线程C的参数与B类似。

只有A比较特别,它是最高级,而且他的线索数可能很少,比如,只有一个,如果执行了一次,线索就用完了,如果下次还想运行,那么必须重新激活,crontab.xml有renewClue,用于激活线索。

分级抓取的详细说明参看《分级抓取》

多谢老大

谢谢,说的非常清楚,已经解决!