快捷导航
本帖最后由 ym 于 2015-8-14 14:29 编辑

我刚新发布了一个采集规则:   新浪微博_评论

详细信息:

      采集热门博文的评论信息,用于分析微博效果、舆论走向、用户心理行为、舆情分析等,通过定时采集可实现持续监控的效果;微博采集需要登录账号,且要定期(1/2天)更换微博账号,降低封锁风险。      
     可与新浪微博_博主主页新浪微博_博主详细信息新浪微博_搜索列表新浪微博_话题等规则资源结合使用,能够实现更加全面深入的分析研究。

希望大家喜欢!下载地址: http://www.gooseeker.com/res/detail_89131.html
举报 使用道具
| 回复

共 51 个关于本帖的回复 最后回复于 2023-3-23 20:06

旅行的意义 初级会员 发表于 2015-8-14 13:36:29 | 显示全部楼层
这个规则采集的信息真全,懒得自己做了,下载一个用用
举报 使用道具
gz51837844_5 禁止发言 发表于 2015-8-14 15:20:52 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
举报 使用道具
gz51837844_5 禁止发言 发表于 2015-8-14 15:24:44 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
举报 使用道具
矿工的风采 初级会员 发表于 2015-8-14 17:24:41 | 显示全部楼层
这个资源好用!有个问题,就是如果某篇热门博文有200多页的评论时,好像微博经常翻不完整,为什么?
举报 使用道具
华为EMUI 新手上路 发表于 2015-8-14 17:36:43 | 显示全部楼层
"矿工的风采 2015-08-14 17:24
这个资源好用!有个问题,就是如果某篇热门博文有200多页的评论时,好像微博经常翻不完整,为什么?"

To 矿工的风采:
对于比较热门的微博,其评论一般会在发布后快速增长,而微博服务器一般会设计有反抓取机制,以防这些评论被用户下载到本地,任何爬虫软件都会遇到同样的问题,只就只能通过我们采集GooSeeker爬虫软件的定时自启动功能进行循环抓取评论数据的前50页,通过设定间隔一定时间如1小时就启动一次爬虫进行抓取,最后把全部抓取到的评论在数据库进行程序自动去重处理。
举报 使用道具
丁道师 中级会员 发表于 2015-8-17 17:03:37 | 显示全部楼层
下载来试一试
举报 使用道具
丁道师 中级会员 发表于 2015-8-17 17:10:26 | 显示全部楼层
我想请问下,我下载了该规则,点击运行之后,弹出了DS 打数机,但是并没有自动抓取,接下来我要怎么操作呢?
举报 使用道具
FullerHua 新手上路 发表于 2015-8-17 19:58:35 | 显示全部楼层
丁道师 发表于 2015-8-17 17:10
我想请问下,我下载了该规则,点击运行之后,弹出了DS 打数机,但是并没有自动抓取,接下来我要怎么操作呢 ...

一开始一条线索都没有,就是说没有要抓的网页地址。可以手工录入,在DS打数机上,选中这个抓取规则,点击右键,有管理线索-》添加菜单,一行行输入网址

主要是要控制一下输入的网址是否符合这个抓取规则要求的网页结构,可以在资源详情页上打开样本页面看,对比一下
举报 使用道具
坦克罐头 初级会员 发表于 2015-8-20 11:04:29 | 显示全部楼层
刚刚下载看,觉得还行,等下抓完了再来评论
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 15:15