11 24953

集搜客爬取马蜂窝评论

zyfinis 于 2020-5-16 15:31 发表 [复制链接]

按照大大的爬虫模拟点击抓取京东商品评论进行操作爬取马蜂窝景点评论数据的时候,二级规则名字查重了,且二级规则开始前提示这是一个下级规则的名字),在层级抓取,保存二级抓取规则的时候,弹框显示【存在同名抓取,更新吗?】这个时候是要更新吗?不更新的话就必须要更改任务名了?然后后面进行爬取数据的时候总会连续动作被中断,是为什么啊?我哭了搞不明白



捕获.PNG
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2021-3-24 16:36

wangyong 版主 发表于 2021-3-24 16:36:13 | 显示全部楼层
马蜂窝的景点评论数据可以直接用集搜客的快捷采集来运行采集1,安装集搜客数据管家,选择马蜂窝景点采集_评论
输入要采集的景点链接例如:http://www.mafengwo.cn/poi/2576.html,然后选择要采集的页数,点击[url=]获取数据[/url]
数据管家会自动启动开始采集数据
景点-数据管家.png
如果要采集一个城市的多个景点链接,可以先采集:马蜂窝景点采集_列表,采集到一个城市下所有的景点链接,然后再批量输入到评论采集入口中批量采集。



2,采集完成后就可以到快捷采集管理后台中打包下载Excel格式的数据。
景点评论样例.png
举报 使用道具
Fuller 管理员 发表于 2020-5-16 16:17:03 | 显示全部楼层
DS打数机菜单 高级-》终点标志-》重复内容,不要勾,就好了。

如果你是做了连续动作,那么第一级可能会不断地才相同的内容,如果设置了这个选项,就当成重复内容中断了
举报 使用道具
zyfinis 新手上路 发表于 2020-5-16 16:24:31 | 显示全部楼层
谢谢大大,我再试一下。
举报 使用道具
zyfinis 新手上路 发表于 2020-5-16 16:53:00 | 显示全部楼层
Fuller 发表于 2020-5-16 16:17
DS打数机菜单 高级-》终点标志-》重复内容,不要勾,就好了。

如果你是做了连续动作,那么第一级可能会不 ...

那是最后一步操作更新规则以后,在该页面直接点击爬取数据吗?还是直接点开打数机,高级设置以后进行爬取数据?还有发现就是最后爬取的数据不是自己想要的数据啊,就爬出来的数据非常少,在EXCEL 中点开以后就只有一行,而且没有自己想要的评论。(我爬取的是马蜂窝上对景区的评论)

真的要崩溃了。救救孩子吧,大大
捕获.PNG
举报 使用道具
Fuller 管理员 发表于 2020-5-16 18:32:58 | 显示全部楼层
zyfinis 发表于 2020-5-16 16:53
那是最后一步操作更新规则以后,在该页面直接点击爬取数据吗?还是直接点开打数机,高级设置以后进行爬取 ...

你的规则名是什么发出来我测试一下。主要是第一级规则
举报 使用道具
zyfinis 新手上路 发表于 2020-5-16 18:35:02 | 显示全部楼层
模拟采集西湖
举报 使用道具
Fuller 管理员 发表于 2020-5-16 19:22:20 | 显示全部楼层

其实只需要第二级就行了,因为不用点击就把评论显示出来了。

数据太少的关键原因是你没有勾关键内容,会漏数据。DS打数机要打开自动滚屏,DS打数机菜单 配置-》滚屏参数,把滚屏次数设置成2

这个网页很规范,有很好的定位标志,可以用定位标志映射提高规则的适应性。参看下图,具体看教程:https://www.gooseeker.com/doc/article-344-1.html
定位标志20200516191909.png

为了抓取多样例,可以用样例复制映射,也可以用定位标志映射,参看下图,具体看教程:https://www.gooseeker.com/doc/article-347-1.html
每一条都有相同的class,最适合用定位标志映射抓取多样例
标志20200516192134.png
举报 使用道具
zyfinis 新手上路 发表于 2020-5-16 20:26:09 | 显示全部楼层
我之前进行的就是样例映射,但是按照以上操作以后,打数机操作以后,采集信息也不再翻页了,也没有数据也不运行了,这个咋了啊。一脸懵逼
举报 使用道具
Fuller 管理员 发表于 2020-5-16 22:26:48 | 显示全部楼层
zyfinis 发表于 2020-5-16 20:26
我之前进行的就是样例映射,但是按照以上操作以后,打数机操作以后,采集信息也不再翻页了,也没有数据也不 ...

我测试你的规则,翻页很好。如果采集了一遍,可以激活线索,再次采集
举报 使用道具
tianliaohua 新手上路 发表于 2020-10-19 17:13:52 | 显示全部楼层
马蜂窝的评论都加密了  爬取下来的都是乱码如何解决
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:31