我想采集一个贸易网站的pdf附件的全文内容
地址: https://www.usitc.gov/secretary/ ... tice03312021sgl.pdf
用这个地址制作规则后,大概需要批量采集5千多个相同结构的页面。但是正式采集时采集窗口会白屏,pdf内容采集不到,同时附件会自动下载下来。如何在把pdf的全文内容作为一个字段存下来的同时禁止采集窗口自动下载附件?
其他地址:
https://www.usitc.gov/secretary/ ... tice04122021sgl.pdf
https://www.usitc.gov/secretary/ ... tice03152021sgl.pdf

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-4-14 12:04

沙发
内容分析应用 金牌会员 发表于 2021-4-14 11:39:11 | 只看该作者
我测试了一下, 确实是可以把整个pdf文件下载下来, 不能直接采集pdf的内容。
目前爬虫无法把pdf内容解析成dom树, 也就不能对pdf内容进行定位和获取。
举报 使用道具
板凳
lubbio 中级会员 发表于 2021-4-14 11:44:45 | 只看该作者
内容分析应用 发表于 2021-4-14 11:39
我测试了一下, 确实是可以把整个pdf文件下载下来, 不能直接采集pdf的内容。
目前爬虫无法把pdf内容解析成 ...

也不用特定到pdf的具体内容,只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什么采集的时候页面加载不出来
举报 使用道具
地板
内容分析应用 金牌会员 发表于 2021-4-14 12:03:02 | 只看该作者
lubbio 发表于 2021-4-14 11:44
也不用特定到pdf的具体内容,只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什 ...

采集的时候, 有加载pdf内容, 但是爬虫无法提取。
要把html节点下的内容采集下来, 就需要爬虫先把pdf内容解析出来, 然后生成整颗html树, 目前爬虫软件没有这个功能



举报 使用道具
5#
Fuller 管理员 发表于 2021-4-14 12:04:35 | 只看该作者
lubbio 发表于 2021-4-14 11:44
也不用特定到pdf的具体内容,只用把html节点下所有的文本内容采集下来就可以了。问题应该是不太清楚为什 ...

下载文件功能跟从网页上采集内容是不同的,下载文件功能只管把文件存到硬盘,而不解析pdf文件。

如果想要整个pdf内容,可以自己用python解析pdf,参看这个帖子《Python读取pdf的内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 17:33