771#
aura89757 新手上路 发表于 2018-12-7 01:19:20 | 只看该作者
您好,我在采集人民日报微博每年3月份两会的数据,13年-16年都正常采集了,但17和18年同样的采集办法,都只能采集半个月不到的数据,不知道哪里出了问题,求解答
举报 使用道具
772#
Fuller 管理员 发表于 2018-12-7 09:08:32 | 只看该作者
aura89757 发表于 2018-12-7 01:19
您好,我在采集人民日报微博每年3月份两会的数据,13年-16年都正常采集了,但17和18年同样的采集办法,都只 ...


是不是这样选择的:
1,点击“全部”
2,点击“2017”
3,点击“3月”
得到网址:https://weibo.com/rmrb?is_all=1&stat_date=201703#feedtop
把这个网址放在微博博主首页采集工具中,选择采集全部,一共我看只有26页,采集不全?
举报 使用道具
773#
aura89757 新手上路 发表于 2018-12-8 11:34:24 | 只看该作者
Fuller 发表于 2018-12-7 09:08
是不是这样选择的:
1,点击“全部”
2,点击“2017”

非常感谢详细的回复,可能是因为学校网络不好,昨天试了一下每一页分别采集,完成了。谢谢您的解答

举报 使用道具
774#
aura89757 新手上路 发表于 2018-12-8 11:36:07 | 只看该作者
Fuller 发表于 2018-12-7 09:08
是不是这样选择的:
1,点击“全部”
2,点击“2017”

还想请教一下,目前是不是无法用集搜客采集一个微信公众号的所有文章?

举报 使用道具
775#
Fuller 管理员 发表于 2018-12-8 12:12:36 | 只看该作者
aura89757 发表于 2018-12-8 11:36
还想请教一下,目前是不是无法用集搜客采集一个微信公众号的所有文章?

...

采集不到所有的,每个公众号从pc上能看到的内容有限
举报 使用道具
776#
lll777 新手上路 发表于 2018-12-16 01:50:43 | 只看该作者
大家好,请问在爬取微博关键词搜索结果时,已将细分时间段设置为最短时间1小时了,页数还是大于30页怎么办?
举报 使用道具
777#
Fuller 管理员 发表于 2018-12-16 09:54:00 | 只看该作者
lll777 发表于 2018-12-16 01:50
大家好,请问在爬取微博关键词搜索结果时,已将细分时间段设置为最短时间1小时了,页数还是大于30页怎么办 ...

每个时间段可以最多显示50页,所以每个时间段最多采集50页
举报 使用道具
778#
a_7892088 初级会员 发表于 2018-12-25 21:47:50 | 只看该作者
请问可以中途停止但是保留已采集到的数据吗?
举报 使用道具
779#
Fuller 管理员 发表于 2018-12-26 09:20:36 | 只看该作者
a_7892088 发表于 2018-12-25 21:47
请问可以中途停止但是保留已采集到的数据吗?

运行微博的时候,会启动两个DS打数机窗口,一个导入数据,一个爬网页,导入数据的隔一段时间导入一次,如果还没到导入时间,你把爬虫关了,会有几个结果文件没有导入,直到下次运行这个采集主题才会导入
举报 使用道具
780#
a_7892088 初级会员 发表于 2018-12-26 15:06:03 | 只看该作者
明白了,谢谢您!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 09:16