配套软件版本:V9及更低 集搜客网络爬虫 新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《打包下载Excel格式的采集结果数据》 注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 集搜客网络爬虫采集下来的结果数据是用XML文件存的,如果要转换成Excel格式,需要用到爬虫的导入和导出功能。导入数据的方法又分成手工导入和自动导入两种情况。
通过会员中心使xml格式转为excel格式,手工导入导出的操作步骤如下:(注意控制ZIP包的大小) 二、手工导入操作步骤 打数机采集下来的数据,一页一个XML文件,存放在硬盘的DataScraperWorks目录下,相应主题名文件夹里。 1,在硬盘的主题名文件夹里选中多个xml文件直接压缩到zip包,不要夹杂除xml外的文件夹或其他文件类型。 2,登录集搜客官网,进入会员中心->任务管理。 3,点击对应的任务名进入到该任务的管理页面,点击“数据”按钮->“导入XML”,选择XML的压缩包zip,导入。 4,导入成功后即可“导出数据”,在“历史记录”中可以重复下载。下载的数据,默认保存在本地的下载目录。 注意:ZIP包不能大于10M,为了稳定上传,最好分批压缩成多个2M的包。 【注意】数据管理功能是增值服务,每个规则可以免费导出1万条数据,超额,会提示购买“专业版or旗舰版爬虫”。 三、自动导入操作步骤 在会员中心给自己做的规则设置调度,而且勾选了自动入库,如果运行起来爬虫群模式,爬虫群就能自动入库。关于调度设置如何操作,请参看《调度设置操作介绍》 上篇文章:《采集网页数据》 下篇文章:《DS打数机采集数据》 |
wq_jsk0222: 如果给自己做的规则在哪里设置调度,勾选自动入库?教程中第4图没有找到,想通过前期设置实现便捷的xml转excel,请高人指点~ ...
wfh8520: 我尝试在淘宝上抓取数据,导出来只有一个产品的数据,如何做到抓取我在淘宝上搜索的关键词出来的所有的产品的数据呢? ...
ace224: 最后一个还是没有介绍怎么转换格式啊?用excel?
frod_34: 最后一幅图片的界面在哪里能调出来?
zaixian114: 导入数据,为什么我点附件的时候不显示那个压缩文件?