注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 注意当前版本的程序Bug:假设给同一个主题做了两个抓取规则A和B,B没有爬虫路线规则,而A有爬虫路线规则,那么一定要在创建了B以后再次保存A,否则,A的爬虫路线也不执行。也就是说,规则内容最多的那个规则一定要最后保存一次。这个bug很快就会修复,修复后即时通知大家,目前注意避免。 在采集网页时,有时候会遇到同一个网站展示同类信息的页面有多种网页结构,采集时只能采集与样本页面结构相同的页面,而采集其他不同结构的页面就会报错。这时就需要用到规则编号这个功能,在同一主题名下,创建规则编号不同的采集规则,每个编号的规则,采集一种网页结构。 一、以主题名相同规则编号不同来区分采集规则 以抓取淘宝网商品详情为例,在淘宝网的搜索关键词展示的商品里有淘宝的商品也有天猫的商品。
做层级抓取时第二级页面有的是淘宝的商品详情有的是天猫的商品详情,这时在做第二级的抓取规则时就要在同一主题名下创建两个规则,用不同的规则编号来区分,主题名都是《淘宝_商品详情》,抓取淘宝页面的规则编号为规则_1,天猫的规则编号为规则_2。 注意:继续建立第二个规则有两个方法,如下 1)创建新规则:点击文件菜单->新建,在工作台清空后就可以定义新的规则,操作都要重新来一遍。 2)在原有规则的基础上修改:把新网址粘贴到网址框中,加载网页完成后,再点击文件菜单->刷新网页结构->分析页面,此时可能会由于结构不同而报错,定义新规则都可以忽略这些,你要做的是修改规则编号,然后修改规则的映射。 二、定义规则编号不同的采集规则 定义规则编号不同的采集规则最关键的一点,就是每个编号不同的抓取规则至少需要抓取一个本结构页面独有其他结构页面没有的内容,并勾上关键内容,用以区分不同结构的页面,抓取时DS打数机就会自动判断当前页面该使用哪个规则编号的规则。 淘宝和天猫最大的区别是淘宝的商品详情页面有淘宝网的Logo,而天猫的商品详情页面有天猫的Logo,在做规则时,除了要做要抓取的内容的映射后,再多添加一个网页标志,来进行区分。 除了原先决定要采集的标题和价格之外,再添加一个网页标志,用来区分两种网页结构的页面,用来区分淘宝的标志就是淘宝Logo的网页链接,这个链接只有淘宝的页面才有,所以我们在做淘宝页面的规则时将淘宝Logo也抓取下来用作区分标志。
注意要对“网页标志”勾上关键内容。如图3所示。 同理,采集天猫页面时,也抓取天猫Logo,同样也需要勾上关键内容。如上图所示。 这样在同一主题名下定义了两个不同规则编号的规则,在DS打数机运行规则《淘宝_商品详情》采集数据时,会自动根据页面结构匹配到对应规则采集。 |
18009214778: 如何将同一网站 不同页面的相同模块进行爬去尼
有正事的小青年: 一个网站,有很多列表,每个列表点进去是一篇文章,设置后再爬文章,有很多匹配失败的,我猜可能是不同文章的结构不同,有的是长篇文字,有的是短篇文字,有的带 ...
waq0902: 同一主题不同规则制定之前还要先做下级线索吧?