集搜客GooSeeker网络爬虫

标题: 关于采集的数据入库 分析的问题 [打印本页]

作者: 759924607    时间: 2016-7-16 18:34
标题: 关于采集的数据入库 分析的问题
想咨询一下,外包给gooseeker采集数据的话,最后采集的数据也是XML或者Excel格式。
如果是EXCEL格式的数据,最后一共有一万个EXCEL。也就是一万个文件夹。这么多数据怎么保存?是导入到Access?还是?
最后分析的话,以时间维度来分析数据,得将近期一个月或者两个月的数据合并分析。感觉用Excel好麻烦,还要挨个合并。

作者: Fuller    时间: 2016-7-16 18:54
虽然采集结果是一个个XML文件,但是导入数据库后,就放在一起了。

你一共有多少条数据?如果数据量特别大,excel虽然能放很多,但是打开速度会很慢,如果是10万条以内,倒是不用担心。你把抓取结果导入到会员中心,就能合并成一个excel。具体参看:http://www.gooseeker.com/doc/article-259-1.html
作者: 120908990    时间: 2016-7-20 16:26
Fuller 发表于 2016-7-16 18:54
虽然采集结果是一个个XML文件,但是导入数据库后,就放在一起了。

你一共有多少条数据?如果数据量特别大 ...

1、现在对这个网址的数据采集没啥问题,准备建立个数据库。EXCEL、access、还有mysql这些是我目前了解到可建数据库的。集搜客做分析的话,也是直接在EXCEL中分析,做图表?感觉EXCEL的,分析的时候要把各种表格合并处理,好麻烦。
2、对采集的评论做情感分析、关键词量化处理,我们集搜客可以做吗?分词工具只是第一步,后续的步骤,我还没有了解到该怎么做。
求fuller大神指导迷津!
作者: Fuller    时间: 2016-7-20 21:20
120908990 发表于 2016-7-20 16:26
1、现在对这个网址的数据采集没啥问题,准备建立个数据库。EXCEL、access、还有mysql这些是我目前了解到 ...

后面的就是特征工程的范畴,GooSeeker有一系列软件,但是都用于一些大B项目,现在正在整理这些软件,开放给大家。本月底将发布特征词管理工具,我们俗称其为打标工具,这是量化的前置任务。这个工具也会随带增加情感词管理功能

excel可以分析小样本,大量数据还是需要数据库。如果需要,可以提定制需求,我们给你专门提供一个云存储的api,便于使用会员中心的入库功能,并且把入库的数据进行导出和api访问




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2