本帖最后由 郭法丁 于 2017-3-3 16:01 编辑

我首先抓取了途牛网武夷山旅游线路的所有网址,然后打算抓取具体线路的游客点时出了问题。用连续动作中的滚屏,来抓取途牛网的游客点评,网址是这个http://www.tuniu.com/tour/210050972
我首先第一个主题(郭法丁_旅游线路评价2)做了连续动作的滚屏设置。就做了图片中的这些动作。





我第二个主题,开始抓取滚屏后,新加载出来的有游客点评的网页结构。



整理箱内容.jpg (141.89 KB, 下载次数: 522)

这是其整理箱内容

这是其整理箱内容

连续动作中滚屏设置.jpg (140.67 KB, 下载次数: 532)

这个是滚屏的设置

这个是滚屏的设置

整理箱内容2.jpg (151.09 KB, 下载次数: 467)

第二个主题的整理箱

第二个主题的整理箱

爬虫路线2.jpg (145.66 KB, 下载次数: 491)

第二个主题的爬虫路线。

第二个主题的爬虫路线。
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-3-3 17:01

沙发
xandy 论坛元老 发表于 2017-3-3 16:09:48 | 只看该作者
为什么不模拟点击切换到评论页面后再去采集评论呢?
这种方法可以参看教程:《模拟点击切换到另一标签窗口采数据
举报 使用道具
板凳
HJLing 版主 发表于 2017-3-3 16:15:26 | 只看该作者
不需要用连续动作的滚屏 直接用规则郭法丁_旅游线路评价3就可以采集点评了
只要ds打数机有开滚屏 就会自动往下加载
你的问题主要是翻页停不下来 一直在采最后一页的数据停不下来
参考教程《怎么解决翻页死循环/重复翻页的问题
举报 使用道具
地板
郭法丁 初级会员 发表于 2017-3-3 16:40:50 | 只看该作者
xandy 发表于 2017-3-3 16:09
为什么不模拟点击切换到评论页面后再去采集评论呢?
这种方法可以参看教程:《模拟点击切换到另一标签窗口 ...

嗯嗯,记号值和模拟点击标志后面都是“游客点评(19)”,这个19是变化的,我刚刚重新做了下,没有成功。
举报 使用道具
5#
郭法丁 初级会员 发表于 2017-3-3 17:01:58 | 只看该作者
HJLing 发表于 2017-3-3 16:15
不需要用连续动作的滚屏 直接用规则郭法丁_旅游线路评价3就可以采集点评了
只要ds打数机有开滚屏 就会自动 ...

嗯恩,是这样的,已经成功跑完第一个网页啦。自己想了很多方法,试了很多次,今天终于解决啦。
谢谢版主的解答!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 18:05