https://detail.tmall.com/item.htm?spm=a2106.m5667.1000384.204.uKln1e&id=543633063631&_u=51u7g7c9b58&on_comment=1
我想采集“味道不错”、“便宜”和“快递不错”等7个标签下的评论。
一个一个采集凑齐7个。样本复制也设了,爬虫线路也设了,数据爬不全。
以“味道不错”为例,才抓了2个文件,请问是怎么回事呢?

文件.png (32.33 KB, 下载次数: 897)

文件.png

分类.png (27.5 KB, 下载次数: 899)

分类.png

爬虫路线.png (44.9 KB, 下载次数: 837)

爬虫路线.png

样本复制.png (47.69 KB, 下载次数: 908)

样本复制.png
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-4-7 15:31

沙发
Fuller 管理员 发表于 2017-4-6 16:21:52 | 只看该作者


我加载了你的规则,问题出在红箭头指向的红框,确定死了只有第三个位置。所以,翻页失败。

原因是:你的线索定位映射选了A元素,范围太窄,而应该使用A的父节点div[@class='rate-paginator']这个节点做线索的定位映射,这才是代表翻页区的节点
举报 使用道具
板凳
Gary985 初级会员 发表于 2017-4-6 16:34:24 | 只看该作者
Fuller 发表于 2017-4-6 16:21
我加载了你的规则,问题出在红箭头指向的红框,确定死了只有第三个位置。所以,翻页失败。

原因是:你的 ...

能截个图么不太明白?
举报 使用道具
地板
Gary985 初级会员 发表于 2017-4-6 16:39:09 | 只看该作者
Fuller 发表于 2017-4-6 16:21
我加载了你的规则,问题出在红箭头指向的红框,确定死了只有第三个位置。所以,翻页失败。

原因是:你的 ...

不太明白,截个屏吧。您正确的步骤。十分感谢,我其他标签也遇到这个问题了。
举报 使用道具
5#
Gary985 初级会员 发表于 2017-4-6 16:48:03 | 只看该作者
Fuller 发表于 2017-4-6 16:21
我加载了你的规则,问题出在红箭头指向的红框,确定死了只有第三个位置。所以,翻页失败。

原因是:你的 ...

改成父节点,已解决。
举报 使用道具
6#
Fuller 管理员 发表于 2017-4-6 17:05:52 | 只看该作者
Gary985 发表于 2017-4-6 16:48
改成父节点,已解决。


举报 使用道具
7#
Gary985 初级会员 发表于 2017-4-7 13:37:11 | 只看该作者
Fuller 发表于 2017-4-6 16:21
我加载了你的规则,问题出在红箭头指向的红框,确定死了只有第三个位置。所以,翻页失败。

原因是:你的 ...

您看,有出新问题,所有内容抓的都一样。您看这种情况下应该怎么设计规则呢?

新问题.png (132.72 KB, 下载次数: 882)

新问题.png
举报 使用道具
8#
Gary985 初级会员 发表于 2017-4-7 14:20:33 | 只看该作者
举报 使用道具
9#
Fuller 管理员 发表于 2017-4-7 15:31:12 | 只看该作者

哪个主题名?

天猫老乡亲-味道不错 翻页以后就变成 天猫老乡亲-味道不错二级 了,对不对?这是为了采集味道不错?

但是,第一级加载失败,失败的xpath是 .//*[@id='ratetag1629_3337a'] ,这个id可能是个大问题,点击“定位”按钮,修改成 偏好class 试试。

另外,爬虫线索的定位记号值是 味道不错(1698) ,这里面还有一个数字,这个数字会变换的,所以,这个规则很快会失效。要把后面的数字删除,不要勾选“全匹配”
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-11 23:32