我是金融从业人员~想从网页上爬些数据保存成自己需要的格式做下分析自用~但是我不知道爬下来的数据具体能够做到哪些格式~~我想问一下爬虫除了找专业的人士写之外~就没有什么公司提供一个爬虫软件什么的专供我这种业余人士使用么?

也许问的很业余~专业人士勿笑~
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-11-11 19:19

沙发
xandy 论坛元老 发表于 2016-11-11 10:02:08 | 只看该作者
大数据时代把网络爬虫领域推热了,楼主是金融从业人员,获取数据的目的应该是为了做数据分析和数据挖掘,这也是大数据的主要应用场景,也是与传统的大型综合网络爬虫的区别所在。

根据我的理解,传统的网络爬虫要着重解决性能问题,比较核心的问题是自适应调度和DNS预解析,单个CPU需要做到每秒处理3000个网址以上。而数据分析的网络爬虫显然不需要这样的性能,而是数据获取的便捷性和精准性。所以,在软件市场上,原先的网页内容抓取软件应该会有比较好的发展空间。

比如,研究一个特定人群的特征,所谓的客户画像,在研究过程中需要不断补充多个网站源的数据,如果使用数学建模的深度挖掘方法,还会有不断的迭代过程,在这个过程中会不断把其它数据源引入进来。如果一个网页内容抓取软件能够便捷精准地实现这个目标,将会体会到一种“收割数据”的感觉。

集搜客网络爬虫的可视化界面和会员中心的数据管理功能是我比较喜欢的,需要从一个数据源获得数据,通过直观的标注,然后把生成的规则丢给爬虫群,就可以专心投入到数据建模过程,需要数据时从数据管理中心下载即可。

数据获取问题必须首先得到有效解决,才能专心投入数据挖掘,目前我们重点克服的困难是短文本的聚类分析和消费者画像建模,所有的电商评论、新闻跟评、微博消息,这些短文本汇聚在一起挖掘的时候,会发现很多有价值的信息,同时挑战很大。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-11-11 19:19:58 | 只看该作者
集搜客网络爬虫用直观标注方式采集数据,易学易用
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 02:28