https://detail.tmall.com/item.htm?spm=a2106.m5667.1000384.204.uKln1e&id=543633063631&_u=51u7g7c9b58&on_comment=1
我想采集“味道不错”、“便宜”和“快递不错”等7个标签下的评论。
一个一个采集凑齐7个。样本复制也设了,爬虫线路也设了,数据爬不全。
以“味道不错”为例,才抓了2个文件,请问是怎么回事呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-4-7 15:31

沙发
Fuller 管理员 发表于 2017-4-6 16:21:52 | 只看该作者


我加载了你的规则,问题出在红箭头指向的红框,确定死了只有第三个位置。所以,翻页失败。

原因是:你的线索定位映射选了A元素,范围太窄,而应该使用A的父节点div[@class='rate-paginator']这个节点做线索的定位映射,这才是代表翻页区的节点

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Gary985 初级会员 发表于 2017-4-6 16:34:24 | 只看该作者
Fuller 发表于 2017-4-6 16:21
我加载了你的规则,问题出在红箭头指向的红框,确定死了只有第三个位置。所以,翻页失败。

原因是:你的 ...

能截个图么不太明白?
举报 使用道具
地板
Gary985 初级会员 发表于 2017-4-6 16:39:09 | 只看该作者
Fuller 发表于 2017-4-6 16:21
我加载了你的规则,问题出在红箭头指向的红框,确定死了只有第三个位置。所以,翻页失败。

原因是:你的 ...

不太明白,截个屏吧。您正确的步骤。十分感谢,我其他标签也遇到这个问题了。
举报 使用道具
5#
Gary985 初级会员 发表于 2017-4-6 16:48:03 | 只看该作者
Fuller 发表于 2017-4-6 16:21
我加载了你的规则,问题出在红箭头指向的红框,确定死了只有第三个位置。所以,翻页失败。

原因是:你的 ...

改成父节点,已解决。
举报 使用道具
6#
Fuller 管理员 发表于 2017-4-6 17:05:52 | 只看该作者
Gary985 发表于 2017-4-6 16:48
改成父节点,已解决。


举报 使用道具
7#
Gary985 初级会员 发表于 2017-4-7 13:37:11 | 只看该作者
Fuller 发表于 2017-4-6 16:21
我加载了你的规则,问题出在红箭头指向的红框,确定死了只有第三个位置。所以,翻页失败。

原因是:你的 ...

您看,有出新问题,所有内容抓的都一样。您看这种情况下应该怎么设计规则呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
Gary985 初级会员 发表于 2017-4-7 14:20:33 | 只看该作者
举报 使用道具
9#
Fuller 管理员 发表于 2017-4-7 15:31:12 | 只看该作者

哪个主题名?

天猫老乡亲-味道不错 翻页以后就变成 天猫老乡亲-味道不错二级 了,对不对?这是为了采集味道不错?

但是,第一级加载失败,失败的xpath是 .//*[@id='ratetag1629_3337a'] ,这个id可能是个大问题,点击“定位”按钮,修改成 偏好class 试试。

另外,爬虫线索的定位记号值是 味道不错(1698) ,这里面还有一个数字,这个数字会变换的,所以,这个规则很快会失效。要把后面的数字删除,不要勾选“全匹配”
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 01:28