图片url采集不到,测试规则时有,预览数据也能看到,xml里面也有,导入导出成excel就没了
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2020-7-21 09:53

沙发
iwvcar009 高级会员 发表于 2020-7-16 10:37:48 | 只看该作者
jblist  jb详情 这些规则都是如此,图片链接总是采集不到

感觉像导入工具的规则有bug,碰到特殊字符就出错一样
举报 使用道具
板凳
小蜜蜂测试162 高级会员 发表于 2020-7-16 11:05:06 | 只看该作者
你把采集的网址发一下吧,这些规则加载规则的样本页面都是本地路径,我们看不到
举报 使用道具
地板
iwvcar009 高级会员 发表于 2020-7-16 13:46:40 | 只看该作者
https://www.blancpain.cn/zh-hans ... nutes-6632-3642-55a
这是jb详情 的样本页面,要先点击开价格

https://www.blancpain.cn/zh-hans/wanbiaoxilie/zhaodaonindewanbiao
这是 jblist 的样本页面
举报 使用道具
5#
wangyong 版主 发表于 2020-7-16 14:29:19 | 只看该作者
iwvcar009 发表于 2020-7-16 13:46
https://www.blancpain.cn/zh-hans/yishudashixilie/repetition-minutes-6632-3642-55a
这是jb详情 的样本 ...


这是我测试列表页规则的数据,能采到图片

你把你说没有图片网址的xml和下载的Excel发一下看看
举报 使用道具
6#
iwvcar009 高级会员 发表于 2020-7-16 20:38:59 | 只看该作者
这是导出的数据excel

jb详情_1594866368909.zip

77.46 KB, 下载次数: 1

举报 使用道具
7#
iwvcar009 高级会员 发表于 2020-7-16 20:40:44 | 只看该作者
这是某一个xml,xml里面有url,但是导出的汇总数据表中就采集不到图片url了

jb详情_72231969_1594821918135.rar

1.01 KB, 下载次数: 1

举报 使用道具
8#
wangyong 版主 发表于 2020-7-16 21:02:33 | 只看该作者
iwvcar009 发表于 2020-7-16 20:40
这是某一个xml,xml里面有url,但是导出的汇总数据表中就采集不到图片url了
...


图片链接这个字段在高级设置里选择文本内容,重新抓取就能正常入库了

举报 使用道具
9#
iwvcar009 高级会员 发表于 2020-7-16 22:37:20 | 只看该作者
好的,我再试试看,谢谢啦
举报 使用道具
10#
Fuller 管理员 发表于 2020-7-17 09:07:42 | 只看该作者
关键原因是@src是属性节点,如果勾选网页片段选项,还会在结果文件中保持属性节点。而属性节点内容是不入库的。

如果是在正常的内容映射或者标注后,再勾选高级设置,勾上网页片段,会有如下提示:



但是,如果是自定义xpath,或者别的操作顺序,爬虫没法判断节点类型,就没法限制。

下个版本我们再增加一个结果文件过滤功能,把属性节点内容恢复到元素节点中
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 17:54