我用微博工具箱采集这条微博的所有转发和评论http://weibo.com/1859363691/F8lI ... t#_rnd1501650306136
采集的时候,同时勾选了转发和评论。转发先采完,158页都采下来了,也能打包。
采集评论的时候,打数机后来报错。然后显示采集完成,但是不能打包。


maomao微博评论.png (56.42 KB, 下载次数: 931)

maomao微博评论.png

maomao微博问题.png (16.74 KB, 下载次数: 897)

maomao微博问题.png
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-8-2 22:37

沙发
Fuller 管理员 发表于 2017-8-2 21:15:09 | 只看该作者
你截图上的错误日志跟这个问题无关,采集微博的时候不用连续动作,不会出连续动作的错误日志。那些日志可能是上一个采集任务的。

158页数量挺多个,你同时运行了几个爬虫群窗口?
举报 使用道具
板凳
maomao 论坛元老 发表于 2017-8-2 21:20:29 | 只看该作者
运行了一个。本来弹出了两个爬虫窗口,可能在采集过程中,没注意,关了一个。就只剩下一个爬虫窗口了,这会有影响?
举报 使用道具
地板
Fuller 管理员 发表于 2017-8-2 21:23:13 | 只看该作者
maomao 发表于 2017-8-2 21:20
运行了一个。本来弹出了两个爬虫窗口,可能在采集过程中,没注意,关了一个。就只剩下一个爬虫窗口了,这会 ...

本来是两个窗口,虽然有一个看起来是空的,但是它能不断地把采集结果入库。我估计你采集的数据很多,采集完最后打包的时候,包太大,发送超时了。

可以看看本地硬盘的结果目录中,是否有很大的zip文件
举报 使用道具
5#
maomao 论坛元老 发表于 2017-8-2 21:31:03 | 只看该作者
是这个文件吗?

maomao微博评论文件目录.png (19.01 KB, 下载次数: 917)

maomao微博评论文件目录.png
举报 使用道具
6#
Fuller 管理员 发表于 2017-8-2 21:35:30 | 只看该作者
maomao 发表于 2017-8-2 21:31
是这个文件吗?

数据太多了,因为没有分批次入库,最后一次文件太大,发送失败了,可以把爬虫群窗口重新打开,然后把这个zip解开,把文件平分成5批,逐批放在这个文件夹中,一般会重新打包的,打完一批再放另一批。如果没有再次打包,可以另添加一个要采集的微博,会再次激活打包过程
举报 使用道具
7#
maomao 论坛元老 发表于 2017-8-2 22:33:42 | 只看该作者
我把打数机打开了。然后按你说的把ZIP解开,先把这些解开后得到的X'M'L文件的一部分拷贝到这个文件目录下,但是不行,没有自动打包。

解开ZIP.png (102 KB, 下载次数: 904)

解开ZIP.png
举报 使用道具
8#
maomao 论坛元老 发表于 2017-8-2 22:37:31 | 只看该作者
后来,我把imported目录下的XML分批拷贝到这个文件目录下,自动打包了。看来XML文件名里不能有乱码。

import文件夹.png (100.27 KB, 下载次数: 905)

import文件夹.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 08:48