中国食品农产品证书信息抓取案例

2015-12-5 18:02| 发布者: Fuller| 查看: 9909| 评论: 0

摘要: 中国食品农产品认证信息系统的网址是:http://ffip.cnca.cn/ffip/publicquery/certSearch.jsp ,这个网站最大特点是用了很多iframe,嵌套在一起展示证书信息。无论iframe有多少层,集搜客GooSeeker网络爬虫都一视同 ...

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

       中国食品农产品认证信息系统的网址是:http://ffip.cnca.cn/ffip/publicquery/certSearch.jsp ,这个网站最大特点是用了很多iframe,嵌套在一起展示证书信息。无论iframe有多少层,集搜客GooSeeker网络爬虫都一视同仁,就像没有iframe一样定义抓取规则。但是要注意:
** 在一个整理箱中,抓取内容只能来自于一个iframe,如果需要抓取多个iframe中的内容,需要分别建立整理箱。

       除了以上注意事项以外,还需要好几个抓取技巧才能顺利把证书信息抓取下来。下文将详细讲解,也可以直接下载抓取规则:中国食品农产品认证证书

1,使用移动工作台

       如果屏幕很小,这个网页不会显示滚动条,那么证书列表就看不全,无法定义翻页抓取规则。MS谋数台支持两种界面布局
       1)固定工作台:界面各区块是固定的,操作起来比较方便,但是屏幕太小就不方便了
       2)移动工作台:工作台是浮动的,那么下部的浏览器窗口的高度就能调整。针对这个网页,需要把浏览器调整得足够大。
       设置方法是:选择MS谋数台的菜单 “配置”-〉“界面布局”,选择切换。效果如下图,按住红水平线可以调整浏览器窗口高度


2,使用定位标志映射

       网页上的div和td等html标签,很多都使用了相同的@class,比如,div[@class='yui-dt-liner'],每个字段都这样,MS谋数台生成抓取规则的时候,会自动选择@class或者@id,以便生成更有适应性的抓取规则,但是,有时候自动选的不合适,需要人工做定位标志映射。如下图,每个字段的 td 上有很合适的@class值,而且每个字段都不一样,特别适合。如下图,绿框中的定位标志不能用。


3,翻页标志非文本

       如下图,网页上没有“下一页”这样的翻页超链接,而是一个三角图标,这是非文本翻页标志。如下图,先把工作台上的“文本记号”的勾去掉,再用@tiltle做定位标志映射。


4,选择线索的定位首选项

在没有设置线索的定位首选项之前,MS谋数台会自动优选@id来生成XPath表达式,如下图所示


如上图,点击“爬虫路线”工作台的“查看”按钮,能看到生成的翻页规则,红框里面的XPath显示使用了@id,而这个id在不同分页上是不同的,那么翻页到第二页就失效了。如下图选择线索定位首选项菜单

选择“偏好class”后,在查看翻页规则,就是

//*[.//@title="下一页" and @class='yui-pg-next']

这样每个分页都适合


5,DS打数机上启用定时器触发

如上图,如果不设置定时器触发,就会出现日志:抓取成功,但爬虫参数还有优化空间以提高抓取速度

1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

最新评论

GMT+8, 2024-3-29 07:46