想咨询一下,外包给gooseeker采集数据的话,最后采集的数据也是XML或者Excel格式。
如果是EXCEL格式的数据,最后一共有一万个EXCEL。也就是一万个文件夹。这么多数据怎么保存?是导入到Access?还是?
最后分析的话,以时间维度来分析数据,得将近期一个月或者两个月的数据合并分析。感觉用Excel好麻烦,还要挨个合并。
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-7-20 21:20

沙发
Fuller 管理员 发表于 2016-7-16 18:54:41 | 只看该作者
虽然采集结果是一个个XML文件,但是导入数据库后,就放在一起了。

你一共有多少条数据?如果数据量特别大,excel虽然能放很多,但是打开速度会很慢,如果是10万条以内,倒是不用担心。你把抓取结果导入到会员中心,就能合并成一个excel。具体参看:http://www.gooseeker.com/doc/article-259-1.html
举报 使用道具
板凳
120908990 新手上路 发表于 2016-7-20 16:26:43 | 只看该作者
Fuller 发表于 2016-7-16 18:54
虽然采集结果是一个个XML文件,但是导入数据库后,就放在一起了。

你一共有多少条数据?如果数据量特别大 ...

1、现在对这个网址的数据采集没啥问题,准备建立个数据库。EXCEL、access、还有mysql这些是我目前了解到可建数据库的。集搜客做分析的话,也是直接在EXCEL中分析,做图表?感觉EXCEL的,分析的时候要把各种表格合并处理,好麻烦。
2、对采集的评论做情感分析、关键词量化处理,我们集搜客可以做吗?分词工具只是第一步,后续的步骤,我还没有了解到该怎么做。
求fuller大神指导迷津!
举报 使用道具
地板
Fuller 管理员 发表于 2016-7-20 21:20:33 | 只看该作者
120908990 发表于 2016-7-20 16:26
1、现在对这个网址的数据采集没啥问题,准备建立个数据库。EXCEL、access、还有mysql这些是我目前了解到 ...

后面的就是特征工程的范畴,GooSeeker有一系列软件,但是都用于一些大B项目,现在正在整理这些软件,开放给大家。本月底将发布特征词管理工具,我们俗称其为打标工具,这是量化的前置任务。这个工具也会随带增加情感词管理功能

excel可以分析小样本,大量数据还是需要数据库。如果需要,可以提定制需求,我们给你专门提供一个云存储的api,便于使用会员中心的入库功能,并且把入库的数据进行导出和api访问
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 07:04