GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
2
12337
有免费的网络爬虫软件使用吗?
强者的历史
于 2016-11-11 09:59
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
强者的历史
积分
41
精华
0
威望
14
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
我是金融从业人员~想从网页上爬些数据保存成自己需要的格式做下分析自用~但是我不知道爬下来的数据具体能够做到哪些格式~~我想问一下爬虫除了找专业的人士写之外~就没有什么公司提供一个爬虫软件什么的专供我这种业余人士使用么?
也许问的很业余~专业人士勿笑~
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 2 个关于本帖的回复 最后回复于 2016-11-11 19:19
xandy
积分
3345
精华
0
威望
1130
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
xandy
论坛元老
发表于 2016-11-11 10:02:08
|
只看该作者
大数据时代把网络爬虫领域推热了,楼主是金融从业人员,获取数据的目的应该是为了做数据分析和数据挖掘,这也是大数据的主要应用场景,也是与传统的大型综合网络爬虫的区别所在。
根据我的理解,传统的网络爬虫要着重解决性能问题,比较核心的问题是自适应调度和DNS预解析,单个CPU需要做到每秒处理3000个网址以上。而数据分析的网络爬虫显然不需要这样的性能,而是数据获取的便捷性和精准性。所以,在软件市场上,原先的网页内容抓取软件应该会有比较好的发展空间。
比如,研究一个特定人群的特征,所谓的客户画像,在研究过程中需要不断补充多个网站源的数据,如果使用数学建模的深度挖掘方法,还会有不断的迭代过程,在这个过程中会不断把其它数据源引入进来。如果一个网页内容抓取软件能够便捷精准地实现这个目标,将会体会到一种“收割数据”的感觉。
集搜客网络爬虫的可视化界面和会员中心的数据管理功能是我比较喜欢的,需要从一个数据源获得数据,通过直观的标注,然后把生成的规则丢给爬虫群,就可以专心投入到数据建模过程,需要数据时从数据管理中心下载即可。
数据获取问题必须首先得到有效解决,才能专心投入数据挖掘,目前我们重点克服的困难是短文本的聚类分析和消费者画像建模,所有的电商评论、新闻跟评、微博消息,这些短文本汇聚在一起挖掘的时候,会发现很多有价值的信息,同时挑战很大。
举报
使用道具
回复
支持
反对
Fuller
积分
24062
精华
0
威望
6724
金钱
6
最后登录 2025-5-2
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
Fuller
管理员
发表于 2016-11-11 19:19:58
|
只看该作者
集搜客网络爬虫用
直观标注方式采集数据
,易学易用
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
浏览过的版块
常见问题
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
360或火绒等杀毒软件导致GooSeeker爬虫软件
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
怎样使用快捷采集(以采集京东评论为例)
3
集搜客文本分词标注工具(V1版)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10608
访问主页>>
wangyong
帖子:1737
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-5-4 15:16
快速回复
快速发帖
返回顶部
返回列表
共 2 个关于本帖的回复 最后回复于 2016-11-11 19:19