快捷导航
24 30750

抓取推特推主主页信息

HJLing 于 2015-9-24 16:00 发表 [复制链接]
本帖最后由 wangyong 于 2021-5-7 10:10 编辑

我新发布了一个采集规则:
抓取推特推主主页信息


详细信息:
在Twitter采集某个推主相关推文列表信息。在大数据时代采集某个推主的Twitter搜索列表信息可用于舆情监测和人群行为分析。

希望大家喜欢!下载地址:
https://www.gooseeker.com/res/rule_738.html
举报 使用道具
| 回复

共 24 个关于本帖的回复 最后回复于 2021-3-28 19:42

scraper 论坛元老 发表于 2021-3-15 11:43:36 | 显示全部楼层
在集搜客快捷采集中可以采集Twitter的数据,一共有三个板块:推特关键词搜索采集(TwitterSearchData)
推特推主推文数据采集(TwitterAuthorTweetsData)
推特推文评论采集(TwitterTwittesCommentData)

其中推特推主推文数据采集(TwitterAuthorTweetsData)可以采集的推特主页发布大信息
使用方式如下:
1,集搜客数据管家,从左侧工具条进入快捷采集,选择推特推主推文数据采集(TwitterAuthorTweetsData)

输入要采集的推主链接,如果要同时采集多个推主就选择输入多条网址
确认条件后,数据管家就会自动启动采集任务
2,待采集状态变成已采集,在快捷采集管理页面就可以打包下载结果数据了


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
CassieMouse 高级会员 发表于 2018-12-23 03:03:45 | 显示全部楼层
你好,请问这些规则如何使用啊,我点进去就是一个网页呢~
举报 使用道具
Fuller 管理员 发表于 2018-12-23 10:51:59 | 显示全部楼层
CassieMouse 发表于 2018-12-23 03:03
你好,请问这些规则如何使用啊,我点进去就是一个网页呢~

点击进去,看到下载按钮


下载以后,会在会员中心看到,放在我的下载这类


其实用法跟自己写的规则一样,也可以在MS谋数台上编辑,也可以用DS打数机运行


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
CassieMouse 高级会员 发表于 2018-12-23 14:49:40 | 显示全部楼层
Fuller 发表于 2018-12-23 10:51
点击进去,看到下载按钮


十分感谢!

举报 使用道具
Fuller 管理员 发表于 2018-12-23 15:11:40 | 显示全部楼层

这个规则可以下载下来使用,刚刚检查过可以使用

举报 使用道具
15559732107 中级会员 发表于 2019-8-26 12:02:02 | 显示全部楼层
请问规则怎么直接适用?
举报 使用道具
Fuller 管理员 发表于 2019-8-26 12:16:30 | 显示全部楼层
15559732107 发表于 2019-8-26 12:02
请问规则怎么直接适用?

这个规则挺老的了,建议你自己重新定义
举报 使用道具
yanhanruoyu961121 初级会员 发表于 2020-3-14 03:05:07 | 显示全部楼层
您好,我下载了放入网址重新激活开始采集,但为什么总失败呢?我在ds打数机那延长了超时时间和滚屏参数(比较长),第一次采集卡到2月5号就没有新的推文然后就不动失败了。  之后我尝试减少超时时间以及滚屏参数,然后就显示采集失败。。。我用上面那个规则采集还没成功过呢?请问您能帮到我吗。。。
举报 使用道具
yanhanruoyu961121 初级会员 发表于 2020-3-14 03:15:20 | 显示全部楼层
Fuller 发表于 2019-8-26 12:16
这个规则挺老的了,建议你自己重新定义

您好,我将推特个人首页网址导入激活开始采集,但是无法采集成功,请问您能帮到我吗?
举报 使用道具
yanhanruoyu961121 初级会员 发表于 2020-3-14 03:21:33 | 显示全部楼层
Fuller 发表于 2019-8-26 12:16
这个规则挺老的了,建议你自己重新定义

我将那个规则加载出来时遇到的问题,您看看能帮到我吗?

加载抓取规则遇到的错误:
无法定位容器 No.0
无法定位抓取内容 No.1 (情景2);XPath是.//*[@class='fullname show-popup-with-id u-textTruncate ']/text()
无法定位抓取内容 No.2 (情景2);XPath是.//*[@class='_timestamp js-short-timestamp ']/text()
无法定位抓取内容 No.3 (情景2);XPath是.//*[@class='js-tweet-text-container']
无法定位抓取内容 No.4
无法定位抓取内容 No.5
无法定位抓取内容 No.6
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 16:48