快捷导航
如图:
爬虫问题1.jpg
爬虫问题2.jpg
我要爬取第一张图所示上下结构的文本内容,其中上一个框的内容是“Silver Spike”,下一个框是“Short List”,由于没有截全,其实还有其它文本比如“Bronze Spike”、“Gold Spike”等。

但是在规则测试和最后的打数机爬取中,都无法爬取除“Silver Spike”以外的文本内容。
不知道是为什么,感觉上下框文本所在节点位置也是相同的。

除了这一列内容,其它我想采集做了内容映射的地方的内容都能正常爬取,就只有这一列会缺漏。

我搜索之后,尝试做了定位标志映射,不知道对不对,结果是做了也无法正常爬取,当然也有可能是我定位错了。
爬虫问题3.jpg


最后测试规则或者爬取出来的结果总是这样:
爬虫问题4.jpg


不知有没有大神可以赐教,实在疑惑。
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 6 天前

Fuller 管理员 发表于 2018-10-12 20:23:19 | 显示全部楼层
根据中间那个截图看,Silver Spike的内容都有@class = 'list_prize_silver',而其他的就会有其他的class值,做内容映射的时候会自动选择@class或者@id作为定位标志,如果选上这个值的话,其他类型的内容就采集不到了。你可以沿着DOM树往祖先节点方向找,找一个不论哪种类型都用的@class或者@id做定位标志映射,就能避免这个问题。

如果确实找不到一个合适的,就点击“定位”按钮,选择“只用id”,就会避免这些@class
举报 使用道具
WUNAN00002 新手上路 发表于 6 天前 | 显示全部楼层
Fuller 发表于 2018-10-12 20:23
根据中间那个截图看,Silver Spike的内容都有@class = 'list_prize_silver',而其他的就会有其他的class值 ...

非常感谢!
一下子就解决了,谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 大型百货商场会员画像描绘
  • 自动导入导出数据
  • 批量爬取蘑菇街商品价格、评论信息
  • 微博用户数据分析
  • 批量爬取苏宁商品价格、评论信息

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-10-23 03:40