求大神指点,谢谢
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2021-9-1 18:10

Fuller 管理员 发表于 2021-9-1 18:10:40 | 显示全部楼层
集搜客现在可以很便捷的下载PDF文件
弹窗显示的PDF文件也可以下载
举报 使用道具
Fuller 管理员 发表于 2018-8-14 10:53:19 | 显示全部楼层
如果你打算下载pdf文件,这个问题有点复杂,我们自己目前也遇到了这个难题。如果你想用集搜客爬虫下载pdf文件,你会发现有时候能下载,有时候会把文件打开了。

如果你只是想抓取pdf链接,那跟抓取其他网页链接一样
举报 使用道具
julydelion 新手上路 发表于 2018-8-14 16:19:48 | 显示全部楼层
Fuller 发表于 2018-8-14 10:53
如果你打算下载pdf文件,这个问题有点复杂,我们自己目前也遇到了这个难题。如果你想用集搜客爬虫下载pdf文 ...

多谢回复!
其实我有几十个网站定期发布公告,主要是pdf或者word格式,想定期把它们定期下载下来,看来目前是做不到了,还是感谢!

期待你们越做越好

举报 使用道具
Fuller 管理员 发表于 2018-8-14 16:30:53 | 显示全部楼层
julydelion 发表于 2018-8-14 16:19
多谢回复!
其实我有几十个网站定期发布公告,主要是pdf或者word格式,想定期把它们定期下载下来,看来目 ...

目前我们自己的项目也在下载pdf。我们的爬虫还有一个火狐插件版本,可以下载pdf。想下载可以加入qq群:801640866,群文件夹中有软件。使用方法参看:https://www.gooseeker.com/doc/article-175-1.html
举报 使用道具
wangyong 版主 发表于 2020-10-10 11:15:36 | 显示全部楼层
网页上有PDF,但是PDF没有链接,集搜客爬虫也可以下载,可以用连续动作的点击动作,来点击PDF下载按钮,爬虫会自动下载
QQ截图20201010111404.png


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 16:36