采集结束后,没有打包就把打数机页面关掉了。。。然后再打包就提示没数据,怎么解决啊


举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2019-11-12 17:44

沙发
Fuller 管理员 发表于 2019-11-11 20:58:08 | 只看该作者
从后台看到你入库了很多数据,今天一次都没有打包出来?
举报 使用道具
板凳
sdt110 中级会员 发表于 2019-11-11 21:09:06 | 只看该作者
Fuller 发表于 2019-11-11 20:58
从后台看到你入库了很多数据,今天一次都没有打包出来?

打包出来了一部分 不知道是不是因为关了打数机,有一个3000多数据的没有打包成功,再看其他已经打包过的也不可以了

举报 使用道具
地板
Fuller 管理员 发表于 2019-11-11 21:37:04 | 只看该作者
sdt110 发表于 2019-11-11 21:09
打包出来了一部分 不知道是不是因为关了打数机,有一个3000多数据的没有打包成功,再看其他已经打包过的 ...

要看以前打包好的要去这里:


如果担心DS打数机关的太早,可以再加一个采集任务,执行完以后会把上一次没有入库的数据再次入库。

万一是在DS打数机正在入库的时候关闭了,那么需要检查一下存数据的文件夹,检查过程是这样的:
1,每个采集任务都有一个以任务名命名的文件夹,放在DataScraperWorks文件夹中,参看下图,进入到这个任务名文件夹
2,如果全部是zip文件,说明都已经准备好入库了,如果还有xml文件,说明上一次还没有都入库就关闭了DS打数机,运行一个新采集任务会把这些数据一起入库
3,如果在harvestrecord中有zip文件,说明向数据库发送的时候出问题了,没有发送成功,记下来这个文件名,到上一层文件夹中找到这个zip文件,解压缩出来一些xml文件,运行一个新采集任务会把他们重新入库


DS打数机运行的时候,一个窗口采集,一个窗口入库,不要关他们,采集窗口应该最大化,窗口上面覆盖其他窗口不影响采集,但是不能把它缩小
举报 使用道具
5#
sdt110 中级会员 发表于 2019-11-12 10:04:23 | 只看该作者
本帖最后由 sdt110 于 2019-11-12 11:57 编辑

找到了。
运行一个新采集任务

这个是指我新建的其他任务,入库的时候会捎带把它入库是吗?另外,我用两台电脑一起爬,有一个已完成的任务,在第一台电脑上不能打包,第二台可以是为什么呢?
举报 使用道具
6#
sdt110 中级会员 发表于 2019-11-12 12:07:59 | 只看该作者
还有一个问题,创建了多个网址的任务,中间有几个链接出错,显示已停止后,点击那个已停止可以全部重新采集失败的链接,我在重新采集之前打包了一次数据,全部重新采集以后再打包下来的数据只有出错的那部分链接的数据。如果我只在重新采集以后打包会包含全部数据吗?
举报 使用道具
7#
微舆情 高级会员 发表于 2019-11-12 14:12:21 | 只看该作者
sdt110 发表于 2019-11-12 12:07
还有一个问题,创建了多个网址的任务,中间有几个链接出错,显示已停止后,点击那个已停止可以全部重新采集 ...

每次打包, 会将尚未打包的数据进行打包. 已经打包过的就不再重复打包了



举报 使用道具
8#
sdt110 中级会员 发表于 2019-11-12 14:41:33 | 只看该作者
微舆情 发表于 2019-11-12 14:12
每次打包, 会将尚未打包的数据进行打包. 已经打包过的就不再重复打包了

好的 谢谢

举报 使用道具
9#
sdt110 中级会员 发表于 2019-11-12 17:00:22 | 只看该作者
我又有一个问题 如果在数据下载那里删除了打包过的数据,是不是这个数据就没了 也不能再打包了
举报 使用道具
10#
Fuller 管理员 发表于 2019-11-12 17:26:20 | 只看该作者
sdt110 发表于 2019-11-12 17:00
我又有一个问题 如果在数据下载那里删除了打包过的数据,是不是这个数据就没了 也不能再打包了 ...

是的,删除以后就不能下载了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 06:08