微博抓取全部评论和回复遇到的问题

starry123

可以抓取全部评论，但是不知道怎么抓取每条评论下面的回复，如果设置翻页区只能抓第一条评论的回复（因为不同评论下面的回复数量不一样“共**条评论”），如果设置定位映射无法提取有效网址（因为 href JavaScript：void（0））求教，谢谢

层级采集
林jj和林jj二级

shenzhenuser1 · 发表于 2020-10-15 15:25:25

使用集搜客的微博快捷采集输入链接和关键词就能采集到数据，不需要这么麻烦的再定义规则了。
微博转发采集入口：https://www.gooseeker.com/res/softdetail_6.html
微博评论和回复采集入口：https://www.gooseeker.com/res/da ... D%E9%87%87%E9%9B%86
数据示例

Fuller · 发表于 2019-3-23 12:21:55

在连续动作工作台上需要定义一个点击动作，这个点击动作的xpath要自己写

点击一个共x条回复，可以看到DOM定位到A节点，选择“显示XPath：偏好class”，可以看到生成的xpath，这个xpath太通用了，容易定位到别的节点，所以要改写，利用上“共x条回复”作为筛选条件，修改成

//*[@class='WB_text']/a[contains(text(), '共') and contains(text(), '条回复')]

复制代码

把xpath输入到箭头指向的地方，点击“搜索”按钮，看看搜索到几个，然后点击下一个，挨个看看是不是全覆盖了

用这个xpath拷贝到连续动作那里，连续动作要使用点击类型，具体参看教程《自动点击京东价格条件》

做这个规则有两个缺陷，目前不太好解决：
1，假设“共x条回复”点击一次就显示完了，那么刚才构造的那个xpath就定位不到这个回复区域了，这样就少了一个点击位置，会影响后续点击的排序。因为点击动作假定点了以后那个xpath能定位到的节点数量不变
2，有些回复太多了，点一次不行，这个规则实现不了一直点击下去

starry123 · 发表于 2019-3-23 20:12:56

Fuller 发表于 2019-3-23 12:21
在连续动作工作台上需要定义一个点击动作，这个点击动作的xpath要自己写

嗯嗯按照您说的写啦，而且我自己改了一下您的语句（//*[@class='WB_text']/a[contains(text(), '更多') and contains(text(), '条回复')]），二级那里也用了您说的方法加了Xpath，用连续动作实现了可以抓取全部的回复！！但现在还有一个问题是，一级连续动作指向的是林jj二级，二级里展开更多回复的时候连续动作也指向林jj二级，不知道是不是因为这个原因，只抓去了第一条评论下面的全部回复，后面评论的回复随都实现了点击，然鹅其回复均未抓取。这个问题该如何解决呢，谢谢啦~

Fuller · 发表于 2019-3-23 22:33:57

starry123 发表于 2019-3-23 20:12
嗯嗯按照您说的写啦，而且我自己改了一下您的语句（//*[@class='WB_text']/a[contains(text(), '更多') ...

点击定位按钮，选择偏好class，在点击测试，切换到数据规则窗口，可以看到生成的采集规则中的xpath定位变化了，把

//*[@class='list_ul']

复制代码

拷贝到输入框中，点击搜索按钮，然后点击下一个，看看基本上覆盖了所有的回复，用这个设置就可以抓取全了。
连续动作以后，会抓取大量重复内容，每点击一次，抓取一次，大部分内容是重复的

微博抓取全部评论和回复遇到的问题

共 4 个关于本帖的回复最后回复于 2020-10-15 15:25

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

微博抓取全部评论和回复遇到的问题

共 4 个关于本帖的回复 最后回复于 2020-10-15 15:25

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2020-10-15 15:25