本帖最后由 Anna J 于 2015-12-22 11:57 编辑

        不管是新人还是资深用户,爬虫爬取下来的xml格式数据的转换,都是一个难以忽视的坎。对新手而言,还要用热心用户的工具,需要费一番功夫;对高级用户来说,xml量一大就还是很难实现快速转换。
        为了解决这个问题,集搜客最近新推出的爬虫群功能之“数据管理”——可以实现xml导入云仓库,然后根据自己的格式需求导出数据。整个过程将比之前的各种处理办法速度快很多。
        并且“激活入库”的功能可以直接实现自定义建表,实现采集数据更符合需求的导出。                                           更多关于“爬虫群”请见http://www.gooseeker.com/doc/article-200-1.html






举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2016-5-11 10:05

沙发
Fuller 管理员 发表于 2015-12-22 12:26:45 | 只看该作者
规则多,网页多的时候,很好用
举报 使用道具
板凳
xandy 论坛元老 发表于 2015-12-22 17:55:42 | 只看该作者
对于要采集大量数据的用户来说确实帮了很大的忙。
举报 使用道具
地板
幸福的地铁 中级会员 发表于 2015-12-22 18:20:43 | 只看该作者
棒棒棒!!!
举报 使用道具
5#
洪城县令 中级会员 发表于 2015-12-23 10:03:01 | 只看该作者
这个真不错,我等小白的大福利
举报 使用道具
6#
gz51837844 管理员 发表于 2015-12-24 09:52:01 | 只看该作者
目前还是测试期,会有不稳定的情况
举报 使用道具
7#
氧分子网 初级会员 发表于 2015-12-24 10:15:22 | 只看该作者
效率很高呀,导入1万个文件,一分钟搞定了
举报 使用道具
8#
Fuller 管理员 发表于 2015-12-24 10:20:46 | 只看该作者
氧分子网 发表于 2015-12-24 10:15
效率很高呀,导入1万个文件,一分钟搞定了

其实最大的价值在于自动化和无人值守,爬虫抓一批就自动导入一批,过些时候只管来导出就行了。
举报 使用道具
9#
llssyy 初级会员 发表于 2016-5-8 19:41:00 | 只看该作者
导入数据以后导出的数据不完整。这是为什么?做的主题有三个规则,两个整理箱,每个规则应该有两个表才是,导出来的却只有一个表。
举报 使用道具
10#
Fuller 管理员 发表于 2016-5-8 22:42:06 | 只看该作者
llssyy 发表于 2016-5-8 19:41
导入数据以后导出的数据不完整。这是为什么?做的主题有三个规则,两个整理箱,每个规则应该有两个表才是, ...

主题名是什么?我安排工程师检查问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的

热门用户

GMT+8, 2026-5-3 01:21