3.1 建立第一级规则,例如规则名叫“pdf_first”,输入样本网址,在整理箱中映射pdf链接并设置下级线索; 3.2 在爬虫路线中目标主题名填第二级规则名,例如规则名“pdf_second”。测试没问题就保存规则。
4.1 如下图,我们可以看到一页pdf对应了一个div模块,要把整篇pdf文章抓下来,我们只能找包容每页pdf的上层节点做映射。注意:要先双击抓取内容,在高级设置中选择文本内容,然后才能对dom模块节点做内容映射。 4.2 找到包容整篇文章的节点做内容映射后,最好是对整理箱以及抓取内容都做上定位标志映射,能够提高定位的准确性和规则的适用性。
4.3 有多页pdf的话,还要设置翻页,操作:点击网页中的下一页按钮,定位到翻页记号所在的dom模块,在爬虫路线中新建记号线索,把翻页区块节点(这里是BUTTON节点)映射给定位编号,本案例中的翻页记号是属性节点@title,不是#text节点的话,要取消勾选文本记号,然后才能映射给记号定位编号。最后记得保存规则。
先采集第一级规则:点击单搜,输入网址数量,采集时会把抓到的pdf链接自动导入到第二级规则中。 再采集第二级规则:由于翻页记号始终存在,最后就会陷入翻页循环,我们通过点击高级菜单->中断标志->重复内容来解决,这样当网页重复出现三次时,DS打数机就会判断为重复而停止抓取。然后右击规则名,统计有多少条等待抓取的线索,再输入线索数,如下图,爬虫会自动翻页采集,每抓一页得到一个xml数据文件,最后把xml导入到excel中,进行重复过滤以及文本合并处理,就能得到完整的pdf文章信息。
1)安装集搜客爬虫,操作见安装说明http://www.gooseeker.com/doc/article-135-1.html 2)制作规则请参看教程学习 入门教程:http://www.jisouke.com/doc/article-325-1.html 合并采集分散文本:http://www.gooseeker.com/doc/article-101-1.html 样例复制:http://www.jisouke.com/doc/article-330-1.html 层级规则:http://www.jisouke.com/doc/article-343-1.html 3)采集数据入门请参考教程学习 如何运行DS采集数据:http://www.jisouke.com/doc/article-326-1.html 如何管理规则的线索:http://www.gooseeker.com/doc/thread-667-1-3.html 如何查看数据文件:http://www.gooseeker.com/doc/article-123-1.html 如果看完上面教程,仍然搞不定,请看初级->中级教程打牢基础,再来操作,可以事半功倍。教程参见http://www.gooseeker.com/tuto/tutorial.html |