快捷导航
10 274

采集后无法打包数据

sdt110 于 2019-11-11 19:34 发表 [复制链接]
采集结束后,没有打包就把打数机页面关掉了。。。然后再打包就提示没数据,怎么解决啊

页面截图

页面截图


举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2019-11-12 17:44

Fuller 管理员 发表于 2019-11-11 20:58:08 | 显示全部楼层
从后台看到你入库了很多数据,今天一次都没有打包出来?
举报 使用道具
sdt110 初级会员 发表于 2019-11-11 21:09:06 | 显示全部楼层
Fuller 发表于 2019-11-11 20:58
从后台看到你入库了很多数据,今天一次都没有打包出来?

打包出来了一部分 不知道是不是因为关了打数机,有一个3000多数据的没有打包成功,再看其他已经打包过的也不可以了

举报 使用道具
Fuller 管理员 发表于 2019-11-11 21:37:04 | 显示全部楼层
sdt110 发表于 2019-11-11 21:09
打包出来了一部分 不知道是不是因为关了打数机,有一个3000多数据的没有打包成功,再看其他已经打包过的 ...

要看以前打包好的要去这里:
打包20191111212735.png

如果担心DS打数机关的太早,可以再加一个采集任务,执行完以后会把上一次没有入库的数据再次入库。

万一是在DS打数机正在入库的时候关闭了,那么需要检查一下存数据的文件夹,检查过程是这样的:
1,每个采集任务都有一个以任务名命名的文件夹,放在DataScraperWorks文件夹中,参看下图,进入到这个任务名文件夹
2,如果全部是zip文件,说明都已经准备好入库了,如果还有xml文件,说明上一次还没有都入库就关闭了DS打数机,运行一个新采集任务会把这些数据一起入库
3,如果在harvestrecord中有zip文件,说明向数据库发送的时候出问题了,没有发送成功,记下来这个文件名,到上一层文件夹中找到这个zip文件,解压缩出来一些xml文件,运行一个新采集任务会把他们重新入库
微博20191111213143.png

DS打数机运行的时候,一个窗口采集,一个窗口入库,不要关他们,采集窗口应该最大化,窗口上面覆盖其他窗口不影响采集,但是不能把它缩小
举报 使用道具
sdt110 初级会员 发表于 2019-11-12 10:04:23 | 显示全部楼层
本帖最后由 sdt110 于 2019-11-12 11:57 编辑

找到了。
运行一个新采集任务

这个是指我新建的其他任务,入库的时候会捎带把它入库是吗?另外,我用两台电脑一起爬,有一个已完成的任务,在第一台电脑上不能打包,第二台可以是为什么呢?
举报 使用道具
sdt110 初级会员 发表于 2019-11-12 12:07:59 | 显示全部楼层
还有一个问题,创建了多个网址的任务,中间有几个链接出错,显示已停止后,点击那个已停止可以全部重新采集失败的链接,我在重新采集之前打包了一次数据,全部重新采集以后再打包下来的数据只有出错的那部分链接的数据。如果我只在重新采集以后打包会包含全部数据吗?
举报 使用道具
微舆情 中级会员 发表于 2019-11-12 14:12:21 | 显示全部楼层
sdt110 发表于 2019-11-12 12:07
还有一个问题,创建了多个网址的任务,中间有几个链接出错,显示已停止后,点击那个已停止可以全部重新采集 ...

每次打包, 会将尚未打包的数据进行打包. 已经打包过的就不再重复打包了



举报 使用道具
sdt110 初级会员 发表于 2019-11-12 14:41:33 | 显示全部楼层
微舆情 发表于 2019-11-12 14:12
每次打包, 会将尚未打包的数据进行打包. 已经打包过的就不再重复打包了

好的 谢谢

举报 使用道具
sdt110 初级会员 发表于 2019-11-12 17:00:22 | 显示全部楼层
我又有一个问题 如果在数据下载那里删除了打包过的数据,是不是这个数据就没了 也不能再打包了
举报 使用道具
Fuller 管理员 发表于 2019-11-12 17:26:20 | 显示全部楼层
sdt110 发表于 2019-11-12 17:00
我又有一个问题 如果在数据下载那里删除了打包过的数据,是不是这个数据就没了 也不能再打包了 ...

是的,删除以后就不能下载了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 网络爬虫采集html片段时无法生成结果文件怎
  • 网络爬虫占满了c盘怎么清理
  • 为什么采集速卖通用户评论翻页不了
  • 多级规则执行连续动作而输入动作不在第一级
  • 特征工程入门介绍

热门用户

GMT+8, 2019-12-14 12:28