【第28期】淘宝天猫评论采集

2016-8-25 17:38| 发布者: ym| 查看: 7827| 评论: 0

摘要: 电商购物网站蕴含着不少的消费者特征信息,其中评论就是消费者意见的最直接表现,所以采集评论就变得很常见了。很多购物网站都有反爬虫限制,限制100页显示就是其中一个,那么如何能采集到更多的数据,答案就是分类 ...

电商购物网站蕴含着不少的消费者特征信息,其中评论就是消费者意见的最直接表现,所以采集评论就变得很常见了。很多购物网站都有反爬虫限制,限制100页显示就是其中一个,那么如何能采集到更多的数据,答案就是分类采集,一般的购物网站会把评论分为好中差三种,我们可以分别采集好中差评论,这样就能采到超过100页,如果把类别名称也采集下来,采完数据也就完成了数据的一个初步分类。

如何分类采集呢?针对淘宝天猫的评论,由于好中差评论没有独立网址,我们可以做连续动作来实现类别的点击和数据采集。对于有独立网址的类别,可以做层级采集,对类别的网址设置下级线索,这样就能逐个类别采集。

点击观看培训视频



若有疑问可以集搜客网络爬虫

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

GMT+8, 2024-4-18 11:52