本帖最后由 Tairui 于 2017-5-12 20:27 编辑

以下是采集网站:
http://k.autohome.com.cn/2088/###

http://auto.cankaoxiaoxi.com/1594/koubei.html
http://auto.cankaoxiaoxi.com/2420/koubei.html
http://auto.cankaoxiaoxi.com/2834/koubei.html
http://auto.cankaoxiaoxi.com/2836/koubei.html
http://auto.cankaoxiaoxi.com/2907/koubei.html
http://auto.cankaoxiaoxi.com/2929/koubei.html
http://auto.cankaoxiaoxi.com/2971/koubei.html
http://auto.cankaoxiaoxi.com/3661/koubei.html
http://auto.cankaoxiaoxi.com/3772/koubei.html
http://auto.cankaoxiaoxi.com/3806/koubei.html
http://auto.cankaoxiaoxi.com/3875/koubei.html
http://auto.cankaoxiaoxi.com/4176/koubei.html
http://auto.cankaoxiaoxi.com/4191/koubei.html

采集内容标注如图,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-5-12 20:29

沙发
Fuller 管理员 发表于 2017-5-12 19:55:21 | 只看该作者
汽车之家好像采用什么特殊技术,采集的时候漏字。需要专门定制程序才能解决这个问题
举报 使用道具
板凳
Tairui 新手上路 发表于 2017-5-12 20:29:23 | 只看该作者
貌似采用了反爬虫技术,很多数据爬到的都是空的,无赖,毕业论急用,还要做数据分析,
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 12:41