存储路径中的imported,harvestrecord 以及那些压缩文件代表什么?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-5-18 16:31

沙发
Fuller 管理员 发表于 2017-5-18 16:27:47 | 只看该作者
如果设置了爬虫群调度,而且勾选了入库(数据DIY和微博工具箱不用设置,已经预先设置好了),那么把采集结果发送到云数据的时候,会压缩结果文件。压缩前的一个个xml被转移到了imported。如果发送过程中网络出问题了,会在harvestrecord目录中做记录,只记录压缩包文件名。正常情况下,harvestrecord目录应该是空的
举报 使用道具
板凳
wangyong 版主 发表于 2017-5-18 16:31:53 | 只看该作者

打数机采集到的XML结果默认存放在当前Windows用户下DataScraperWorks对应规则名的文件

爬虫群勾选自动入库后,采集到的xml文件自动压缩成zip并上传到会员中心,通过会员中心到出的数据由xml格式转换为Excel格式

压缩成zip的文件自动移动到imported文件夹中,所以imported文件里存放的xml都是自动压缩过的xml文件

harvestrecord文件夹中的目录是自动上传失败的zip文件名称

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 02:48