本帖最后由 Anna J 于 2015-12-22 11:57 编辑

        不管是新人还是资深用户,爬虫爬取下来的xml格式数据的转换,都是一个难以忽视的坎。对新手而言,还要用热心用户的工具,需要费一番功夫;对高级用户来说,xml量一大就还是很难实现快速转换。
        为了解决这个问题,集搜客最近新推出的爬虫群功能之“数据管理”——可以实现xml导入云仓库,然后根据自己的格式需求导出数据。整个过程将比之前的各种处理办法速度快很多。
        并且“激活入库”的功能可以直接实现自定义建表,实现采集数据更符合需求的导出。                                           更多关于“爬虫群”请见http://www.gooseeker.com/doc/article-200-1.html






举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2016-5-11 10:05

沙发
Fuller 管理员 发表于 2015-12-22 12:26:45 | 只看该作者
规则多,网页多的时候,很好用
举报 使用道具
板凳
xandy 论坛元老 发表于 2015-12-22 17:55:42 | 只看该作者
对于要采集大量数据的用户来说确实帮了很大的忙。
举报 使用道具
地板
幸福的地铁 中级会员 发表于 2015-12-22 18:20:43 | 只看该作者
棒棒棒!!!
举报 使用道具
5#
洪城县令 中级会员 发表于 2015-12-23 10:03:01 | 只看该作者
这个真不错,我等小白的大福利
举报 使用道具
6#
gz51837844 管理员 发表于 2015-12-24 09:52:01 | 只看该作者
目前还是测试期,会有不稳定的情况
举报 使用道具
7#
氧分子网 初级会员 发表于 2015-12-24 10:15:22 | 只看该作者
效率很高呀,导入1万个文件,一分钟搞定了
举报 使用道具
8#
Fuller 管理员 发表于 2015-12-24 10:20:46 | 只看该作者
氧分子网 发表于 2015-12-24 10:15
效率很高呀,导入1万个文件,一分钟搞定了

其实最大的价值在于自动化和无人值守,爬虫抓一批就自动导入一批,过些时候只管来导出就行了。
举报 使用道具
9#
llssyy 初级会员 发表于 2016-5-8 19:41:00 | 只看该作者
导入数据以后导出的数据不完整。这是为什么?做的主题有三个规则,两个整理箱,每个规则应该有两个表才是,导出来的却只有一个表。
举报 使用道具
10#
Fuller 管理员 发表于 2016-5-8 22:42:06 | 只看该作者
llssyy 发表于 2016-5-8 19:41
导入数据以后导出的数据不完整。这是为什么?做的主题有三个规则,两个整理箱,每个规则应该有两个表才是, ...

主题名是什么?我安排工程师检查问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 08:46