成功用规则抓取了一条线索,可是添加新线索后全部抓取失败,请问是什么原因呢?任务名:新浪湖北评论内容。

举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2020-3-6 10:28

沙发
Fuller 管理员 发表于 2020-3-5 16:50:42 | 只看该作者


定位表达式太长了,是相对于这个微博生成的定位表达式,肯定容易采集中断。

可以选择“偏好class”,会好很多,但是,我发现还是有漏的数据,问题如下图,你选择了第二个text做内容映射,但是,并不是每条评论都有第二个text,你可以改成画圈的那个节点做内容映射,每条评论都有那个节点


举报 使用道具
板凳
小萝卜哒 新手上路 发表于 2020-3-6 09:15:20 | 只看该作者
Fuller 发表于 2020-3-5 16:50
定位表达式太长了,是相对于这个微博生成的定位表达式,肯定容易采集中断。

可以选择“偏好class”,会 ...

不好意思呀,到现在才回复您,我按照您的要求改了,可是采集的时候网页总是正在加载中怎么办呀?又导致抓取出错。昨天已尝试过清除gooseeker的缓存。所以重头又来了一遍。任务名:新浪湖北评论内容。
举报 使用道具
地板
Fuller 管理员 发表于 2020-3-6 09:22:14 | 只看该作者
小萝卜哒 发表于 2020-3-6 09:15
不好意思呀,到现在才回复您,我按照您的要求改了,可是采集的时候网页总是正在加载中怎么办呀?又导致抓 ...

最近新浪微博速度很慢,可能大家都在利用微博内容做内容分析。

可以尝试一下这个快捷工具采集评论,用法一样,也是要先登录微博:https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97%A8%E7%BD%91%E7%AB%99&web=%E6%96%B0%E6%B5%AA%E5%BE%AE%E5%8D%9A&rule=%E5%BE%AE%E5%8D%9A%E8%AF%84%E8%AE%BA%E9%87%87%E9%9B%86_cn%E7%AB%AF
举报 使用道具
5#
小萝卜哒 新手上路 发表于 2020-3-6 10:05:46 | 只看该作者
Fuller 发表于 2020-3-6 09:22
最近新浪微博速度很慢,可能大家都在利用微博内容做内容分析。

可以尝试一下这个快捷工具采集评论,用法 ...

好的,谢谢您,有些还是失败了,我再试试用规则吧~

举报 使用道具
6#
Fuller 管理员 发表于 2020-3-6 10:28:01 | 只看该作者
小萝卜哒 发表于 2020-3-6 10:05
好的,谢谢您,有些还是失败了,我再试试用规则吧~

如果网页出现加载中,就跟规则无关了,要等新浪比较快的时候再采集,比如,后半夜和上午
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 02:03