采集的多个内容没有id或class来做具体定位，该如何处理

东皇田馥

如图，”基本内容“有id可以做定位标志，但其项下要采集的出版社、语言、品牌等内容没有id或class等定位标志。
1、做了内容标注，再把“LI”做内容映射，貌似也不能很好解决；
2、除此之外，手动写xpath可以解决么？写时我该把内容写到节点“LI”呢还是包含我需要信息的“text”呢？

Fuller · 发表于 2019-4-12 12:14:08

li/b/text() 应该是那个黑体的，比如“出版社”
li/text()应该是出版社的名字
那么xpath应该写成类似这种
li[contains(b/text(),'出版社')]/text()，就是采集“出版社”后面的名称

东皇田馥 · 发表于 2019-4-12 15:27:13

感谢指点。
我把出版社、语种、品牌的xpath搜出来后分别给他们做了内容映射后还会出错，发现：
1.之前对爬取出错的网页做后续分析时修改并保存了规则，明明对“详情”、“作者”、“基本信息”做了定位标志，对“书名”查了xpath并做了内容标记，但重新打开打数机进行单搜、把有出错的网页拿出来分析规则时，规则里他们的定位标志却不见了，这是怎么回事？

2.不同图书的情况里，有的没有“语种”这个信息，这算是网页结构不一样了对吧？那么是否要把语种这个信息标为非关键内容才能解决？

3.还是不同的图书情况，如下图，结尾分为有评论和没有评论两种情况。有评论的我可以爬到，但如何在一个规则里识别没有评论的呢？

注：对于评论这块，它的上级节点的class有多个，那么就不好做标志定位限定范围再爬目标内容了。该如何写规则既能应对有评论又能应对无评论呢？

采集的多个内容没有id或class来做具体定位，该如何处理

本帖子中包含更多资源

共 2 个关于本帖的回复最后回复于 2019-4-12 15:27

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集的多个内容没有id或class来做具体定位，该如何处理

本帖子中包含更多资源

共 2 个关于本帖的回复 最后回复于 2019-4-12 15:27

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2019-4-12 15:27