如图:


我要爬取第一张图所示上下结构的文本内容,其中上一个框的内容是“Silver Spike”,下一个框是“Short List”,由于没有截全,其实还有其它文本比如“Bronze Spike”、“Gold Spike”等。

但是在规则测试和最后的打数机爬取中,都无法爬取除“Silver Spike”以外的文本内容。
不知道是为什么,感觉上下框文本所在节点位置也是相同的。

除了这一列内容,其它我想采集做了内容映射的地方的内容都能正常爬取,就只有这一列会缺漏。

我搜索之后,尝试做了定位标志映射,不知道对不对,结果是做了也无法正常爬取,当然也有可能是我定位错了。



最后测试规则或者爬取出来的结果总是这样:



不知有没有大神可以赐教,实在疑惑。
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2018-10-17 10:52

沙发
Fuller 管理员 发表于 2018-10-12 20:23:19 | 只看该作者
根据中间那个截图看,Silver Spike的内容都有@class = 'list_prize_silver',而其他的就会有其他的class值,做内容映射的时候会自动选择@class或者@id作为定位标志,如果选上这个值的话,其他类型的内容就采集不到了。你可以沿着DOM树往祖先节点方向找,找一个不论哪种类型都用的@class或者@id做定位标志映射,就能避免这个问题。

如果确实找不到一个合适的,就点击“定位”按钮,选择“只用id”,就会避免这些@class
举报 使用道具
板凳
WUNAN00002 初级会员 发表于 2018-10-17 10:52:49 | 只看该作者
Fuller 发表于 2018-10-12 20:23
根据中间那个截图看,Silver Spike的内容都有@class = 'list_prize_silver',而其他的就会有其他的class值 ...

非常感谢!
一下子就解决了,谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 10:32