各大搜索引擎(百度、谷歌、搜狗等)搜索主题得到的新闻,以及五大新闻门户网(腾讯、新浪、网易、搜狐、凤凰),这些都可以做到吗?
新闻标题、新闻详细网址、新闻来源网站、新闻发表时间、新闻摘要等这些能提取出来嘛



举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-11-28 15:12

沙发
xandy 论坛元老 发表于 2016-11-28 15:06:50 | 只看该作者
你所说的要采集的字段,在网页上有显示的话都是可以采集的。集搜客爬虫软件可以到产品页面进行下载,教程参看教程版块的《从入门到精通》。
要进行关键词自动输入并采集搜索结果,要用到集搜客的连发弹仓功能。


举报 使用道具
板凳
幻茗_Ask 新手上路 发表于 2016-11-28 15:08:22 | 只看该作者
xandy 发表于 2016-11-28 15:06
你所说的要采集的字段,在网页上有显示的话都是可以采集的。集搜客爬虫软件可以到产品页面进行下载,教程参 ...

不好意思,教程没有找到相关的
举报 使用道具
地板
xandy 论坛元老 发表于 2016-11-28 15:12:03 | 只看该作者
幻茗_Ask 发表于 2016-11-28 15:08
不好意思,教程没有找到相关的

这个教程是通用的,通过集搜客GooSeeker网络爬虫制定网页的采集规则,就可以对具有同种网页结构的网页数据进行采集。所以你只要入门了,就可以自己进行数据采集了。
另外,连发弹仓这个功能是要开通后才能使用的。
如果你不想自己做规则,直接要数据或者需要定制开发这个舆情分析系统,可以进行官方定制,集搜客会给你提供采集方案以及报价方案的。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-14 00:29