本帖最后由 xandy 于 2016-12-6 11:18 编辑


【启动采集前的配置】
  • 预先登陆网站:否
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问大众点评商家评论页面;
  • 输入一条网址,或者点击“输入多条网址”,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2023-12-13 09:36

userhong 初级会员 发表于 2018-12-15 16:57:39 | 显示全部楼层
大众点评抓取的评论是残缺的怎么办
举报 使用道具
Fuller 管理员 发表于 2018-12-15 18:43:06 | 显示全部楼层
userhong 发表于 2018-12-15 16:57
大众点评抓取的评论是残缺的怎么办

很遗憾当前版本的集搜客软件没有提供这类内容的解密,大众点评网的加密方式不一样,既不是自定义字体,也不是伪元素,这两种集搜客都已经支持了,而大众点评是基于图片的,暂未支持
举报 使用道具
1969653557 新手上路 发表于 2020-6-9 17:14:31 | 显示全部楼层
样例网址已经获取不了了怎么办
举报 使用道具
Fuller 管理员 发表于 2020-6-9 17:20:37 | 显示全部楼层
1969653557 发表于 2020-6-9 17:14
样例网址已经获取不了了怎么办

这个商家下架了没有关系,另找一个还在开业的商家
举报 使用道具
zyue0522 新手上路 发表于 2020-8-10 11:42:26 | 显示全部楼层
采集评论总是失败,日志显示 ValidateHtmlPage 抓取失败(超时),抓取规则不合适或者超时时间设置太短 要怎么办
举报 使用道具
Fuller 管理员 发表于 2020-8-10 12:01:52 | 显示全部楼层
zyue0522 发表于 2020-8-10 11:42
采集评论总是失败,日志显示 ValidateHtmlPage 抓取失败(超时),抓取规则不合适或者超时时间设置太短:diz ...

估计你添加的网址不对,比如,这个样本
  1. http://www.dianping.com/shop/27496573/review_more
复制代码
/review_more表示查看全部评论,而27496573是店铺编号。如果你的网址只有店铺编号部分,就手工加上/review_more,如果网址很多,可以在excel中大批量添加
举报 使用道具
Jay123 新手上路 发表于 2021-4-4 22:23:15 | 显示全部楼层
每次爬取到第二页就结束了,全部评论的网页网址是all结尾不是more结尾了,
举报 使用道具
kathy1_1 新手上路 发表于 2022-3-25 12:19:43 | 显示全部楼层
大众点评似乎现在设置了反爬虫。。。开始爬数据之后要验证
举报 使用道具
Fuller 管理员 发表于 2022-3-25 15:12:57 | 显示全部楼层
kathy1_1 发表于 2022-3-25 12:19
大众点评似乎现在设置了反爬虫。。。开始爬数据之后要验证

是的,反爬虫很厉害,只能少量采集用于内容分析研究
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:45