集搜客GooSeeker网络爬虫
标题:
爬取微博它会爬一年的量吗
[打印本页]
作者:
矿工的风采
时间:
2016-10-19 15:22
标题:
爬取微博它会爬一年的量吗
想要爬去大V的微博,希望爬最近一年他发的全部微博,可以实现吗
作者:
Fuller
时间:
2016-10-19 15:25
爬大V的微博没有问题,虽然有很多页,即使翻页断了也可以从断处接上爬,因为每个分页都有独立的页码。不像爬评论,翻页断了就要从头开始。
爬微博有现成的工具:集微库工具箱:
http://www.gooseeker.com/land/weibo.html
作者:
xandy
时间:
2016-10-19 15:51
本帖最后由 xandy 于 2016-10-19 15:59 编辑
如果博主发的微博很多,会有很多分页,很容易因为网速原因采集中断,那么,查看采集到的结果,估计翻到了多少页码,可以构造一个新网址,就是从中断处开始的网页。
一、如果你使用集微库-微博采集工具箱进行采集
在
微博博主主页工具
页面内,再次通过采集任务的形式将链接添加进去,最好换一个博主名字,比如,这个网址最后的参数就含有页码信息:
http://weibo.com/tongjiunivlibrary?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=41
更多使用微博采集工具箱碰到的问题,请点击这里:
【集微库】微博采集工具箱使用常见问题
二、如果使用规则来采集数据
那么就将断掉处的链接以线索的形式添加到规则里,开启DS打数机后,就会从断掉的页面开始抓取。
[attach]1927[/attach]
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)
Powered by Discuz! X3.2