大概有6000个XML文件,按理说这个数据量也不是很大。XML导入到Excel中时候,Excel一直处于等待状态,已经等了10分钟了。
当遇到万级以上的数据,就不能用这个XML转Excel宏文件了吗?

举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-9-28 20:52

沙发
Fuller 管理员 发表于 2016-9-28 11:09:31 | 只看该作者
这个excel宏主要处理小规模数据,是一个便捷工具,如果数据量很大,可以启动爬虫群的入库设置,那么会一批批导入云数据库,要控制好每一批线索数量,结果文件积累太多,导入会发不上去。设置好批量大小,会一批批导入,最后导出成excel。

云数据库免费存储量有限制,请注意购买页面上的说明。存储量可以单独购买。

如果自己编程解析结果文件,结果文件是标准XML,解析和导入数据库也不难
举报 使用道具
板凳
2445406817 中级会员 发表于 2016-9-28 18:57:01 | 只看该作者
Fuller 发表于 2016-9-28 11:09
这个excel宏主要处理小规模数据,是一个便捷工具,如果数据量很大,可以启动爬虫群的入库设置,那么会一批 ...

我看到爬虫群调度设置里,有个“结构入库”选框,把这个勾选上不是自动入库?需要人为把数据导入到云数据库?
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-28 19:59:19 | 只看该作者
2445406817 发表于 2016-9-28 18:57
我看到爬虫群调度设置里,有个“结构入库”选框,把这个勾选上不是自动入库?需要人为把数据导入到云数据 ...

选上这个以后,要把DS打数机运行在爬虫群模式下,否则,也不会入库。

此时,手工入库还是可以用的,手工把结果文件压缩成zip,发上去。压缩的时候不能包含文件夹,要纯结果文件。

爬虫群的介绍请访问教程首页左边的目录,展开高级教程,在第三章:http://www.gooseeker.com/tuto/tutorial.html
举报 使用道具
5#
2445406817 中级会员 发表于 2016-9-28 20:13:31 | 只看该作者
Fuller 发表于 2016-9-28 19:59
选上这个以后,要把DS打数机运行在爬虫群模式下,否则,也不会入库。

此时,手工入库还是可以用的,手工 ...

勾选了 结果入库。就不需要人为进行数据导入了吧?
另外,我看到导出数据有个上限是一万条数据,是单次一万条免费?还是总共就能免费一万条?
举报 使用道具
6#
Fuller 管理员 发表于 2016-9-28 20:52:32 | 只看该作者
2445406817 发表于 2016-9-28 20:13
勾选了 结果入库。就不需要人为进行数据导入了吧?
另外,我看到导出数据有个上限是一万条数据,是单次一 ...

每个规则总共1万条,这是数据库的容量。如果需要更多,可以单买数据仓库或者购买专业版
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 22:53