想要爬去大V的微博,希望爬最近一年他发的全部微博,可以实现吗
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-10-19 15:51

沙发
Fuller 管理员 发表于 2016-10-19 15:25:19 | 只看该作者
爬大V的微博没有问题,虽然有很多页,即使翻页断了也可以从断处接上爬,因为每个分页都有独立的页码。不像爬评论,翻页断了就要从头开始。

爬微博有现成的工具:集微库工具箱:http://www.gooseeker.com/land/weibo.html
举报 使用道具
板凳
xandy 论坛元老 发表于 2016-10-19 15:51:00 | 只看该作者
本帖最后由 xandy 于 2016-10-19 15:59 编辑

如果博主发的微博很多,会有很多分页,很容易因为网速原因采集中断,那么,查看采集到的结果,估计翻到了多少页码,可以构造一个新网址,就是从中断处开始的网页。

一、如果你使用集微库-微博采集工具箱进行采集
微博博主主页工具页面内,再次通过采集任务的形式将链接添加进去,最好换一个博主名字,比如,这个网址最后的参数就含有页码信息:
http://weibo.com/tongjiunivlibrary?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=41

更多使用微博采集工具箱碰到的问题,请点击这里:【集微库】微博采集工具箱使用常见问题

二、如果使用规则来采集数据
那么就将断掉处的链接以线索的形式添加到规则里,开启DS打数机后,就会从断掉的页面开始抓取。




举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 12:49