|
大数据时代把网络爬虫领域推热了,楼主是金融从业人员,获取数据的目的应该是为了做数据分析和数据挖掘,这也是大数据的主要应用场景,也是与传统的大型综合网络爬虫的区别所在。
根据我的理解,传统的网络爬虫要着重解决性能问题,比较核心的问题是自适应调度和DNS预解析,单个CPU需要做到每秒处理3000个网址以上。而数据分析的网络爬虫显然不需要这样的性能,而是数据获取的便捷性和精准性。所以,在软件市场上,原先的网页内容抓取软件应该会有比较好的发展空间。
比如,研究一个特定人群的特征,所谓的客户画像,在研究过程中需要不断补充多个网站源的数据,如果使用数学建模的深度挖掘方法,还会有不断的迭代过程,在这个过程中会不断把其它数据源引入进来。如果一个网页内容抓取软件能够便捷精准地实现这个目标,将会体会到一种“收割数据”的感觉。
集搜客网络爬虫的可视化界面和会员中心的数据管理功能是我比较喜欢的,需要从一个数据源获得数据,通过直观的标注,然后把生成的规则丢给爬虫群,就可以专心投入到数据建模过程,需要数据时从数据管理中心下载即可。
数据获取问题必须首先得到有效解决,才能专心投入数据挖掘,目前我们重点克服的困难是短文本的聚类分析和消费者画像建模,所有的电商评论、新闻跟评、微博消息,这些短文本汇聚在一起挖掘的时候,会发现很多有价值的信息,同时挑战很大。 |
|
共 2 个关于本帖的回复 最后回复于 2016-11-11 19:19