快捷导航
您好,请问我要搜集一些特定名字的百度百科简介,这个可以做到吧
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-9-13 09:15

xandy 论坛元老 发表于 2017-1-4 15:17:17 | 显示全部楼层
可以的,网页上可见的公开内容都是可以采集到的。直接下载爬虫,然后学习教程板块《从入门到精通》的前面几篇,就可以上手采集数据了。
举报 使用道具
思秋忆 中级会员 发表于 2017-1-4 15:17:55 | 显示全部楼层
xandy 发表于 2017-1-4 15:17
可以的,网页上可见的公开内容都是可以采集到的。直接下载爬虫,然后学习教程板块《从入门到精通》的前面几 ...

我有一个词汇列表,想爬到百度百科里去把这些词汇的简介摘取下来,不知道怎么弄?
举报 使用道具
xandy 论坛元老 发表于 2017-1-4 15:20:45 | 显示全部楼层
思秋忆 发表于 2017-1-4 15:17
我有一个词汇列表,想爬到百度百科里去把这些词汇的简介摘取下来,不知道怎么弄?
...

集搜客的连发弹仓功能可以实现关键词自动搜索采集。
介绍可以看这里:《加强网络爬虫装备:连发弹仓、飞掠模式、连续打码功能介绍
举报 使用道具
mniyjy 初级会员 发表于 2019-9-12 23:46:20 | 显示全部楼层
您好,请问您这个问题解决了么?我也遇到了相同的问题,想请教一下
举报 使用道具
Fuller 管理员 发表于 2019-9-13 09:15:41 | 显示全部楼层
mniyjy 发表于 2019-9-12 23:46
您好,请问您这个问题解决了么?我也遇到了相同的问题,想请教一下

百度百科是个知识库,可以爬下来做各种知识工程任务。这个很好爬,百度百科有自己的网址,而且搜索的关键词包含在网址中,你只需要构造网址,就能快速为爬虫规则添加线索。比如,网址这个样子:
  1. https://baike.baidu.com/search?word=%E5%8D%9A%E5%BC%88%E8%AE%BA&pn=0&rn=0&enc=utf8
复制代码
添加线索的方法参看《如何管理规则的线索
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么采集速卖通用户评论翻页不了
  • 多级规则执行连续动作而输入动作不在第一级
  • 特征工程入门介绍
  • NLP文本情感分析入门
  • 机器学习算法入门介绍

热门用户

GMT+8, 2019-11-13 08:27