集搜客GooSeeker网络爬虫

标题: 关于天猫商品评论的追评评论和图片问题 [打印本页]

作者: uanaien    时间: 2022-3-28 12:36
标题: 关于天猫商品评论的追评评论和图片问题
在抓取天猫某商品详情页的评论时,不论我如何设置,都只能达到以下两种结果。   1:只抓取没有追加评论的评论

   2:只抓取包含追加评论的评论
如何设置才能保证包不包含追加评论的评论都爬取下来,没有追评的话那一栏就空着?

还有就是我希望一个评论只要包含图片就判定为有,一张图片都没有就判断为无。
应该如何设置?只要能区分开来就行。

作者: Fuller    时间: 2022-3-28 14:55
要自定义xpath才能实现。
把你的规则名发出来,我帮你看看
作者: uanaien    时间: 2022-3-28 14:57
Fuller 发表于 2022-3-28 14:55
要自定义xpath才能实现。
把你的规则名发出来,我帮你看看

规则名:test132    我所说的两项需求都需要自定义xpath吗?


作者: Fuller    时间: 2022-3-28 16:02
uanaien 发表于 2022-3-28 14:57
规则名:test132    我所说的两项需求都需要自定义xpath吗?

第一步:检查dom有什么不同看下图,有追评和没有追评的class不一样


[attach]15404[/attach]


第二步:生成规则
如下图,点击测试按钮,进入采集规则窗口,找到出错的抓取内容,把xpath拷出来这段:.//*[@class='tm-rate-premiere']。这是定位一个结点的xpath
[attach]15405[/attach]

第三步:修改xpath,加入自定义规则
双击抓取内容,设置自定义xpath,输入编辑以后的xpath:.//*[@class='tm-rate-premiere' or @class='tm-rate-content']
[attach]15406[/attach]

最后,要重新做样例映射,因为前面规则不合适,第二个样例会定位到第二个有追评的。要改回来,排在第二个的评论无论有没有追评都作为第二个样例

作者: uanaien    时间: 2022-3-28 17:23
Fuller 发表于 2022-3-28 16:02
第一步:检查dom有什么不同看下图,有追评和没有追评的class不一样

感谢,已完美解决了问题。我还想问问如何在不下载图片的情况下获取评论是否含有图片的信息呢?就是需要区分出含与不含图片的评论。或者初评中有几张图片、追评中有几张图片等等。

作者: Fuller    时间: 2022-3-28 17:43
uanaien 发表于 2022-3-28 17:23
感谢,已完美解决了问题。我还想问问如何在不下载图片的情况下获取评论是否含有图片的信息呢?就是需要区 ...

要创建抓取内容,用于存图片网址。因为有多个图片,应该用一个嵌套的整理箱,用样例复制抓取图片网址。在采集结果中数数有多少网址

作者: lw2219    时间: 2022-4-16 22:11
Fuller 发表于 2022-3-28 17:43
要创建抓取内容,用于存图片网址。因为有多个图片,应该用一个嵌套的整理箱,用样例复制抓取图片网址。在 ...

兄弟,你这个解决了吗?我也想试试这个





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2