如何采集PDF内的信息?

2016-5-6 16:04| 发布者: ym| 查看: 24183| 评论: 1

摘要: 1、通过火狐浏览器的工具菜单-选项-应用程序,点击“便携式文档格式(PDF)”右侧下拉菜单,设置为“在Firefox中预览”,这样网页上的pdf链接就能通过火狐浏览器直接显示为pdf网页。 2、打开一个pdf链接,就能看到 ...


1、通过火狐浏览器的工具菜单->选项->应用程序,点击“便携式文档格式(PDF)”右侧下拉菜单,设置为“在Firefox中预览”,这样网页上的pdf链接就能通过火狐浏览器直接显示为pdf网页。


2、打开一个pdf链接,就能看到其网页版,此时按F12快捷键,如果能解析出HTML结构,就可以把它当做普通网页,从而通过集搜客爬虫来采集pdf内的信息,具体操作请往下看; 如果不能解析出HTML结构,说明pdf就像图片那样,不能抓取里面的信息,只能下载下来,自动批量下载pdf文件的方法见http://www.gooseeker.com/doc/article-175-1.html


3、打开MS谋数台制作第一级规则采集pdf链接,操作如下:

3.1 建立第一级规则,例如规则名叫“pdf_first”,输入样本网址,在整理箱中映射pdf链接并设置下级线索;

3.2 在爬虫路线中目标主题名填第二级规则名,例如规则名“pdf_second”。测试没问题就保存规则。


4、MS谋数台中点击文件菜单->新建,输入样本网址,制作第二级规则,名字就用前面命名的第二级规则名,采集pdf内的信息。

4.1 如下图,我们可以看到一页pdf对应了一个div模块,要把整篇pdf文章抓下来,我们只能找包容每页pdf的上层节点做映射。注意:要先双击抓取内容,在高级设置中选择文本内容,然后才能对dom模块节点做内容映射。

4.2 找到包容整篇文章的节点做内容映射后,最好是对整理箱以及抓取内容都做上定位标志映射,能够提高定位的准确性和规则的适用性。

4.3 有多页pdf的话,还要设置翻页,操作:点击网页中的下一页按钮,定位到翻页记号所在的dom模块,在爬虫路线中新建记号线索,把翻页区块节点(这里是BUTTON节点)映射给定位编号,本案例中的翻页记号是属性节点@title,不是#text节点的话,要取消勾选文本记号,然后才能映射给记号定位编号。最后记得保存规则。


5、点击MS谋数台中的爬数据或通过火狐工具菜单运行DS打数机,在DS打数机中搜索规则。

先采集第一级规则:点击单搜,输入网址数量,采集时会把抓到的pdf链接自动导入到第二级规则中。

再采集第二级规则:由于翻页记号始终存在,最后就会陷入翻页循环,我们通过点击高级菜单->中断标志->重复内容来解决,这样当网页重复出现三次时,DS打数机就会判断为重复而停止抓取。然后右击规则名,统计有多少条等待抓取的线索,再输入线索数,如下图,爬虫会自动翻页采集,每抓一页得到一个xml数据文件,最后把xml导入到excel中,进行重复过滤以及文本合并处理,就能得到完整的pdf文章信息。


推荐新手看完如下教程,再来操作

1)安装集搜客爬虫,操作见安装说明http://www.gooseeker.com/doc/article-135-1.html

2)制作规则请参看教程学习

入门教程:http://www.jisouke.com/doc/article-325-1.html

合并采集分散文本:http://www.gooseeker.com/doc/article-101-1.html

样例复制:http://www.jisouke.com/doc/article-330-1.html

层级规则:http://www.jisouke.com/doc/article-343-1.html

3)采集数据入门请参考教程学习

如何运行DS采集数据:http://www.jisouke.com/doc/article-326-1.html

如何管理规则的线索:http://www.gooseeker.com/doc/thread-667-1-3.html

如何查看数据文件:http://www.gooseeker.com/doc/article-123-1.html

如果看完上面教程,仍然搞不定,请看初级->中级教程打牢基础,再来操作,可以事半功倍。教程参见http://www.gooseeker.com/tuto/tutorial.html



若有疑问可以集搜客网络爬虫
1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

发表评论

最新评论

评论 CherryFeather 2016-11-30 10:35
有这么好的干货,太好了,再也不用担心PDF没法复制了

查看全部评论(1)

GMT+8, 2024-10-11 19:24