抓取推特推主主页信息

279 28 21 所需积分:500 更新时间:2015-09-24 11:18 类别: 社交网络

规则介绍

在Twitter采集某个推主相关推文列表信息。在大数据时代采集某个推主的Twitter搜索列表信息可用于舆情监测和人群行为分析。 注:请先登录所抓取的网站,再运行该规则。 (如果该规则与描述不符或无效,您可 申诉。)

样本页面

采集内容

信息字段 网页内容
Twitter
作者
时间
内容
回复
转发
点赞

数据截图

用户评论

  1. yanhanruoyu961121 2020-03-14 20:00

    重复的话我拿Excel的查重删除似乎可以解决了。。。。。o(╥﹏╥)o搞了一下午到现在似乎是可以正常用了,真的真的非常感谢您!!!!!!!!!! 从一开始想学python到用了好几个软件都搞不定,因为自学似乎有太多疑问没办法解决。。也不知道您是gooseeker的工作人员还是社区爱好者,真的为我解决了一个大难题!!再次感谢您花费自己的私人时间为我解惑!!!

  2. yanhanruoyu961121 2020-03-14 19:35

    好的,我现在去试试!

  3. Fuller 2020-03-14 19:29

    这个规则看起来没有什么问题。用连续滚屏的话,会有很多重复数据,要做重复过滤。产生重复的原因有多种: 1,网页内容变化导致的,比如,很热的关键词,正滚屏到下一页,由于出现新的消息,分页就会改变,会造成重复 2,滚屏次数可能不合适,现在是每次滚一屏,也许滚一屏并不能激发加载新的内容,因为,网页可能一开始预先加载了3屏。所以,可以改成3试试,改的大了也许会漏数据 [attach]12061[/attach]

  4. yanhanruoyu961121 2020-03-14 19:25

    我直接重新下载原规则加载完直接爬出来的也是重复的:'(

  5. yanhanruoyu961121 2020-03-14 19:24

    我回看了一下我下午用您的规则爬的样板网站的数据,数据也是重复的现象,不知道是不是因为我之前调过打数机的配置。。但是我爬的时候都是把打数机的滚屏调为0的。。。。 我刚刚又试了一次,也是重复的。。。 您能帮我看看原规则有什么问题吗?还是我调了打数机的设置?我重装软件会不会好?o(╥﹏╥)o [attach]12060[/attach]

关于作者

作者其他资源更多 >

抓取推特推主主页信息
在Twitter采集某个推主相关推文列表信息。在大数据时代采集某个推主的Twitter搜索列表信息可用于舆情监测和人群行为分析。
抓取推特推主主页推文收藏人主页和头像地址
抓取Twitter推主首页每条推文收藏人的主页链接和头像地址配合《抓取推特推主主页信息 》规则使用,可以抓取推主所有推文收藏人的主页链接和头像地址。
阿里巴巴供应商成功经验
采集阿里巴巴供应商成功经验讨论帖子,可观察分析供应商关于店铺各方面的讨论心得。 PS:此规则通过标签词不断向外扩展得到新的文章,为了避免无限循环大量重复采集,建议使用crontab,将updateClue参数设置为false。
V8.9 版权所有 © 2007-2019 GooSeeker 深圳市天据信息技术有限公司
粤ICP备08108565号-1 粤公网安备44030502004363号