存储路径中的imported,harvestrecord 以及那些压缩文件代表什么?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-5-18 16:31

沙发
Fuller 管理员 发表于 2017-5-18 16:27:47 | 只看该作者
如果设置了爬虫群调度,而且勾选了入库(数据DIY和微博工具箱不用设置,已经预先设置好了),那么把采集结果发送到云数据的时候,会压缩结果文件。压缩前的一个个xml被转移到了imported。如果发送过程中网络出问题了,会在harvestrecord目录中做记录,只记录压缩包文件名。正常情况下,harvestrecord目录应该是空的
举报 使用道具
板凳
wangyong 版主 发表于 2017-5-18 16:31:53 | 只看该作者

打数机采集到的XML结果默认存放在当前Windows用户下DataScraperWorks对应规则名的文件

爬虫群勾选自动入库后,采集到的xml文件自动压缩成zip并上传到会员中心,通过会员中心到出的数据由xml格式转换为Excel格式

压缩成zip的文件自动移动到imported文件夹中,所以imported文件里存放的xml都是自动压缩过的xml文件

harvestrecord文件夹中的目录是自动上传失败的zip文件名称

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 14:50