为什么采集文本内容,测试的时候可以抓到完整的,但是爬取完之后却不完整
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2020-4-1 00:58

wangyong 版主 发表于 2020-3-19 14:43:25 | 显示全部楼层
规则名发一下
举报 使用道具
JeremyCheng 新手上路 发表于 2020-3-19 17:09:40 | 显示全部楼层

规则_1
任务名是mfwww2

举报 使用道具
Fuller 管理员 发表于 2020-3-19 18:03:43 | 显示全部楼层
JeremyCheng 发表于 2020-3-19 17:09
规则_1
任务名是mfwww2

我加载了这个规则,规则结构比较单纯,但是这个网页很长,含有大量图片,需要开启自动滚屏才能把所有内容加载出来。DS打数机开启自动滚屏的方式是:菜单 配置-》滚屏参数,滚屏次数设置成大于0的数字,这个网页很长,设置10试试。

如果样本页面采集是全的,而采集其他页面不全,那就是规则的适应性问题,可以加上定位标志映射,提高适应性。参看《定位标志精确采集范围
举报 使用道具
JeremyCheng 新手上路 发表于 2020-3-19 19:02:18 | 显示全部楼层
Fuller 发表于 2020-3-19 18:03
我加载了这个规则,规则结构比较单纯,但是这个网页很长,含有大量图片,需要开启自动滚屏才能把所有内容 ...

为什么加了多条同样类别的链接后,就只有第一个可以成功爬取,后面的不行了
举报 使用道具
JeremyCheng 新手上路 发表于 2020-3-19 19:02:46 | 显示全部楼层
规则名:马蜂窝get2
举报 使用道具
Fuller 管理员 发表于 2020-3-19 19:07:16 | 显示全部楼层
JeremyCheng 发表于 2020-3-19 19:02
规则名:马蜂窝get2

把失败的网址发出来几个
举报 使用道具
JeremyCheng 新手上路 发表于 2020-3-19 19:31:00 | 显示全部楼层
Fuller 发表于 2020-3-19 19:07
把失败的网址发出来几个

http://www.mafengwo.cn/i/17982319.html
http://www.mafengwo.cn/i/17928490.html
http://www.mafengwo.cn/i/17793658.html
http://www.mafengwo.cn/i/17722399.html
http://www.mafengwo.cn/i/17475085.html
http://www.mafengwo.cn/i/17453995.html
http://www.mafengwo.cn/i/17387131.html
http://www.mafengwo.cn/i/17172580.html
http://www.mafengwo.cn/i/17039155.html
举报 使用道具
Fuller 管理员 发表于 2020-3-19 21:05:26 | 显示全部楼层
JeremyCheng 发表于 2020-3-19 19:31
http://www.mafengwo.cn/i/17982319.html
http://www.mafengwo.cn/i/17928490.html
http://www.mafengwo. ...

我测试没有问题。你观察一下DS打数机运行的时候,DS打数机浏览器中有没有显示内容?另外,要注意这几点:1,DS打数机窗口运行的时候,不能缩小窗口
2,网页这么长,要把自动滚屏打开
举报 使用道具
qwer222 新手上路 发表于 2020-4-1 00:58:51 | 显示全部楼层
你的规则是什么
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的
  • 下载支持win7的集搜客网络爬虫软件
  • 遇到“无法识别的应用”告警怎么办?

热门用户

GMT+8, 2024-9-13 10:20