可以抓取全部评论,但是不知道怎么抓取每条评论下面的回复,如果设置翻页区只能抓第一条评论的回复(因为不同评论下面的回复数量不一样“共**条评论”),如果设置定位映射无法提取有效网址(因为 href JavaScript:void(0)) 求教,谢谢

层级采集
林jj和林jj二级

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-10-15 15:25

来自 5#
wangyong 版主 发表于 2020-10-15 15:25:25 | 只看该作者
使用集搜客的微博快捷采集输入链接和关键词就能采集到数据,不需要这么麻烦的再定义规则了。
微博转发采集入口:https://www.gooseeker.com/res/softdetail_6.html
微博评论和回复采集入口:https://www.gooseeker.com/res/da ... D%E9%87%87%E9%9B%86
数据示例

举报 使用道具
沙发
Fuller 管理员 发表于 2019-3-23 12:21:55 | 只看该作者
在连续动作工作台上需要定义一个点击动作,这个点击动作的xpath要自己写


点击一个 共x条回复,可以看到DOM定位到A节点,选择“显示XPath:偏好class”,可以看到生成的xpath,这个xpath太通用了,容易定位到别的节点,所以要改写,利用上“共x条回复”作为筛选条件,修改成
  1. //*[@class='WB_text']/a[contains(text(), '共') and contains(text(), '条回复')]
复制代码
把xpath输入到箭头指向的地方,点击“搜索”按钮,看看搜索到几个,然后点击下一个,挨个看看是不是全覆盖了

用这个xpath拷贝到连续动作那里,连续动作要使用点击类型,具体参看教程《自动点击京东价格条件

做这个规则有两个缺陷,目前不太好解决:
1,假设“共x条回复”点击一次就显示完了,那么刚才构造的那个xpath就定位不到这个回复区域了,这样就少了一个点击位置,会影响后续点击的排序。因为点击动作假定点了以后那个xpath能定位到的节点数量不变
2,有些回复太多了,点一次不行,这个规则实现不了一直点击下去
举报 使用道具
板凳
starry123 新手上路 发表于 2019-3-23 20:12:56 | 只看该作者
Fuller 发表于 2019-3-23 12:21
在连续动作工作台上需要定义一个点击动作,这个点击动作的xpath要自己写

嗯嗯 按照您说的写啦,而且我自己改了一下您的语句(//*[@class='WB_text']/a[contains(text(), '更多') and contains(text(), '条回复')]),二级那里也用了您说的方法加了Xpath,用连续动作实现了可以抓取全部的回复!!但现在还有一个问题是,一级连续动作指向的是林jj二级,二级里展开更多回复的时候连续动作也指向林jj二级,不知道是不是因为这个原因,只抓去了第一条评论下面的全部回复,后面评论的回复随都实现了点击,然鹅其回复均未抓取。这个问题该如何解决呢,谢谢啦~

举报 使用道具
地板
Fuller 管理员 发表于 2019-3-23 22:33:57 | 只看该作者
starry123 发表于 2019-3-23 20:12
嗯嗯 按照您说的写啦,而且我自己改了一下您的语句(//*[@class='WB_text']/a[contains(text(), '更多')  ...



点击定位按钮,选择偏好class,在点击测试,切换到数据规则窗口,可以看到生成的采集规则中的xpath定位变化了,把
  1. //*[@class='list_ul']
复制代码
拷贝到输入框中,点击搜索按钮,然后点击下一个,看看基本上覆盖了所有的回复,用这个设置就可以抓取全了。
连续动作以后,会抓取大量重复内容,每点击一次,抓取一次,大部分内容是重复的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 01:53