注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 中国食品农产品认证信息系统的网址是:http://ffip.cnca.cn/ffip/publicquery/certSearch.jsp ,这个网站最大特点是用了很多iframe,嵌套在一起展示证书信息。无论iframe有多少层,集搜客GooSeeker网络爬虫都一视同仁,就像没有iframe一样定义抓取规则。但是要注意:** 在一个整理箱中,抓取内容只能来自于一个iframe,如果需要抓取多个iframe中的内容,需要分别建立整理箱。 除了以上注意事项以外,还需要好几个抓取技巧才能顺利把证书信息抓取下来。下文将详细讲解,也可以直接下载抓取规则:中国食品农产品认证证书 1,使用移动工作台 如果屏幕很小,这个网页不会显示滚动条,那么证书列表就看不全,无法定义翻页抓取规则。MS谋数台支持两种界面布局 1)固定工作台:界面各区块是固定的,操作起来比较方便,但是屏幕太小就不方便了 2)移动工作台:工作台是浮动的,那么下部的浏览器窗口的高度就能调整。针对这个网页,需要把浏览器调整得足够大。 设置方法是:选择MS谋数台的菜单 “配置”-〉“界面布局”,选择切换。效果如下图,按住红水平线可以调整浏览器窗口高度 2,使用定位标志映射 网页上的div和td等html标签,很多都使用了相同的@class,比如,div[@class='yui-dt-liner'],每个字段都这样,MS谋数台生成抓取规则的时候,会自动选择@class或者@id,以便生成更有适应性的抓取规则,但是,有时候自动选的不合适,需要人工做定位标志映射。如下图,每个字段的 td 上有很合适的@class值,而且每个字段都不一样,特别适合。如下图,绿框中的定位标志不能用。 3,翻页标志非文本 如下图,网页上没有“下一页”这样的翻页超链接,而是一个三角图标,这是非文本翻页标志。如下图,先把工作台上的“文本记号”的勾去掉,再用@tiltle做定位标志映射。 |