集搜客能不能把PDF或者doc格式的文档在爬取的时候下载下来？

bowieD

umsung · 发表于 2017-10-23 15:55:23

本帖最后由 umsung 于 2017-10-23 15:58 编辑

1，如果文档的链接就是下载地址，就是一点击就会下载的网址，那么就可以做个规则把文档的网址采集下来，并且设置层级抓取，把网住勾为下级线索，下级规则随意做一个/选之前做好的，这样，DS打数机抓取一级规则，把文档的网址生成二级规则的待抓线索，再启动抓二级规则，DS打数机加载文档网址的同时，火狐浏览器会自动下载文档，但是火狐每次下载文件都会弹窗问存储路径，你只要勾上不再提示，后面的下载就不弹窗直接下载到存储文件夹里了。
2，如果下载文档不是url地址，而是用js加载的，就需要用连续动作逐个点击他们，点击以后就能启动下载

集搜客能不能把PDF或者doc格式的文档在爬取的时候下载下来？

共 1 个关于本帖的回复最后回复于 2017-10-23 15:55

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

集搜客能不能把PDF或者doc格式的文档在爬取的时候下载下来？

共 1 个关于本帖的回复 最后回复于 2017-10-23 15:55

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2017-10-23 15:55