|
"矿工的风采 2015-08-14 17:24
这个资源好用!有个问题,就是如果某篇热门博文有200多页的评论时,好像微博经常翻不完整,为什么?"
To 矿工的风采:
对于比较热门的微博,其评论一般会在发布后快速增长,而微博服务器一般会设计有反抓取机制,以防这些评论被用户下载到本地,任何爬虫软件都会遇到同样的问题,只就只能通过我们采集GooSeeker爬虫软件的定时自启动功能进行循环抓取评论数据的前50页,通过设定间隔一定时间如1小时就启动一次爬虫进行抓取,最后把全部抓取到的评论在数据库进行程序自动去重处理。 |
|
共 51 个关于本帖的回复 最后回复于 2023-3-23 20:06