快捷导航
微博采集中遇到的一些常见问题,怎么处理?

举报 使用道具
| 回复

共 25 个关于本帖的回复 最后回复于 2022-5-17 19:16

lan_1985 金牌会员 发表于 2020-2-27 18:21:45 | 显示全部楼层
采集微博,很多用户反映会遇到一下一些问题,汇总如下:
1、页面不动, 遇到DS打数机机不动的页面;
QQ图片20200227181358.png

2、采集给定主页链接的用户详细资料,但DS打数机不动了,用户的详细资料的页面没加载出来;
QQ图片20200227181627.png

3、采集评论页面,评论一直没加载出来,DS打数机也报错


遇到以上几种问题分析及处理办法:
一、最近采集微博的用户比较多,或者网速偏慢的原因,这样先多等待几分钟。
二、等很久也也不见加载出来,DS打数机机还会报错,那就要尝试一下几种做法处理。
1. 爬微博之前,一定要在集搜客浏览器登陆微博
2.网速要好,网速好,才能及时加载网页,把评论加载出来
3.计算机处理速度要快,这样才能及时把评论网页加载出来
4、爬虫运行的时候,不能缩小DS打数机窗口
5.采集量大了,要及时清缓存
清缓存和cookies.png


6、或者按这个帖子一楼的回答彻底清除缓存     https://www.gooseeker.com/doc/thread-11667-1-1.html


举报 使用道具
Fuller 管理员 发表于 2020-2-27 18:25:16 | 显示全部楼层
微博采集工具箱快捷采集用户说采集完成后打包数据条数是0,我遇到最多的情况是:

1,没有在集搜客浏览器登录微博
在集搜客浏览器中登录微博,而不是在其他浏览器中登录微博,那么网络爬虫就能利用登录状态,对微博内容进行爬取。

2,网络爬虫软件运行过程中把窗口缩小了
采集微博的时候,会启动两个DS打数机窗口,其中一个打包数据,另一个加载微博网页并采集数据。加载微博网页的那个窗口不能缩小,要尽量放大。如果缩小到一定程度,微博就不会显示内容了。
如果在采集数据的过程中还想用电脑做其他事情,那么可以开新窗口,覆盖DS打数机的窗口,但是,就是不能把窗口最小化,或者缩小
举报 使用道具
思秋忆 中级会员 发表于 2020-2-28 17:28:57 | 显示全部楼层
微博抓取的疑问:专业版用户,可以同时运行2台电脑,电脑越多,抓取的越快,
那如何运行两台电脑?
如果我有两个任务,是电脑是如何分配这两个任务的呢,会抓取重复数据吗?
举报 使用道具
lan_1985 金牌会员 发表于 2020-2-28 17:47:31 | 显示全部楼层
思秋忆 发表于 2020-2-28 17:28
微博抓取的疑问:专业版用户,可以同时运行2台电脑,电脑越多,抓取的越快,
那如何运行两台电脑?
如果我 ...

1、运行两台电脑:    直接在两台电脑上登录账号,启动采集工具箱,记得每台电脑都要登录微博账号,最好是两个不同的微博账号。

2、如果账号下有两个任务,每个任务下有多条线索,那这两条电脑会并行抓取这个任务下的线索,抓取完了,再一起抓取下一个任务的线索。
3、同一条线索,不会同时被两台电脑拿到,所以,不会重复抓取。
举报 使用道具
月球漫步 中级会员 发表于 2020-2-28 18:05:27 | 显示全部楼层
微博的采集,如果正常抓取完了,会显示已采集,直接打包数据下载就可以
那如果遇到没有正常抓取的怎么处理,显示  ‘已停止’或‘采集中’,直接打包回影响数据的完整性吗?
QQ图片20200228180312.png
举报 使用道具
lan_1985 金牌会员 发表于 2020-2-28 18:15:52 | 显示全部楼层
月球漫步 发表于 2020-2-28 18:05
微博的采集,如果正常抓取完了,会显示已采集,直接打包数据下载就可以
那如果遇到没有正常抓取的怎么处理 ...

如果显示“已停止”或“采集中”,说明有些线索是“已停止”或“采集中”的状态,可以查看一下,方法如下:

点击“已停止”或“采集中”的字体,会弹出一个线索状态框如下,可以查看到哪些线索  已停止  或  采集中。
QQ图片20200228180957.png

微博采集出现这种情况,可能是反爬了,如果希望重采成功率高,需要楼上的方法,清缓存,删Gooseeker后,重新登录微博账号后,
点击右上角的   重采失败线索 按钮,就可以重新采集失败的线索了。

举报 使用道具
lan_1985 金牌会员 发表于 2020-3-18 09:53:11 | 显示全部楼层
微博采集反馈的问题比较多,采集微博数据前一定先做好基础事情:
1、集搜客浏览器登录微博账号,多台电脑采集时,最好每台电脑用不同的微博帐号。
2、集搜客浏览器中登录统一的集搜客账号和会员中心。
3、把采集网址添加到对应采集版块中,启动采集。
举报 使用道具
sdt110 中级会员 发表于 2020-4-23 09:33:00 | 显示全部楼层
lan_1985 发表于 2020-2-27 18:21
采集微博,很多用户反映会遇到一下一些问题,汇总如下:
1、页面不动, 遇到DS打数机机不动的页面;

请问第5条清除缓存,旗舰版用户会清除其他电脑的缓存吗?还是只清除本地的

举报 使用道具
Fuller 管理员 发表于 2020-4-23 10:07:03 | 显示全部楼层
sdt110 发表于 2020-4-23 09:33
请问第5条清除缓存,旗舰版用户会清除其他电脑的缓存吗?还是只清除本地的

...

清除缓存只是清除自己本地的。要每台电脑各自清除
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 19:49