配套软件版本:V10及更高 数据管家——增强版网络爬虫 老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《如何管理规则的线索》 注:下面说的线索和网址就是一回事,网页的网址其实就是爬虫要爬行的线索 1. 应用场景 1.1 添加网址:做好了一个规则,不仅仅是用来采集样本网页的,还可以采集与样本网页结构相同的网页,只需把网址添加到规则中就行。例如,做了一个采集某个京东商品页面的规则,就可以采集不同商品的页面,我们只需把这些商品的网址添加到规则里。 1.2 激活线索:采集完一批网址,还想重新采集一遍,不用再添加一次,直接激活所有线索,就能重复采集这批网址。 1.3 删除线索:如果不想再采集这批网址,我们可以去活线索或者是删掉线索,这样爬虫就不会采集了。 1.4 查看线索状态:想知道当前任务中,哪些线索已经采集了,哪些线索失败了,哪些正在采集中,哪些还没有采集。 2. 进入任务管理界面 要管理线索,首先要进入任务管理界面。有两种途径可以进入。 途径一:通过数据管家软件左栏的快捷按钮 途径二:通过网页上的菜单 3. 管理线索 在任务管理界面的右下方,有管理线索的按钮,可以添加,激活,删除线索等等。 3.1. 添加线索 点击添加网址按钮,按照提示输入网址,还可以输入excel文件,批量添加网址。 3.2. 删除,激活,去活线索 选中一个或者几个线索,然后点击相应的按钮,就可以删除,激活,去活线索。所谓“激活”,就是把爬取过的网址激活后让爬虫重新爬一次。 3.3. 查看线索状态 在抓取数据的过程中,线索的状态可能是已采集,采集中,待采集,采集失败。可按状态筛选、查看线索。 在筛选的右侧是四个对各状态的线索进行批处理的按钮,比如可以批量激活失败的线索,然后就这些线索就变成待采集状态,等待采集。 4. 启动采集 线索整理好了,就可以启动采集数据了。 上篇文章:《网络爬虫生成的XML格式结果文件》 下篇文章:《启动数据采集》 |