【已解决，结贴】某网站爬取碰到（翻页或双爬虫线路问题），求指导

maxno100

本帖最后由 maxno100 于 2016-8-31 17:09 编辑

根据一上午的学习我认为本网站爬取信息分为三步
1、从网站首页页面爬取到每个城市的主页面（已完成）

2、读取步骤一里面的URL，爬取到每个页面的URL（存在问题）

涉及到两个问题
问题一、两个爬虫路线，其中爬虫路线1用于读取步骤1里面的URL，爬虫线路2用于模拟翻页操作（测试过如果不翻页可以正常操作，如果加入翻页就进入死循环，与该网页的特性有关，问题二进行详述）

问题二、网页很特殊在翻到末页时候仍存在，下一页按钮

目前看循环序列是对的，怀疑就是不能正常跳出循环的问题，求教如何解决

使用“相对线索”即可

3、进行网页内容爬取（已完成）

Fuller · 发表于 2016-8-31 16:17:53

怎样跳出循环，这是关键问题。最简单的处理方法是选择DS打数机菜单高级-》终点标志-》重复内容
遇到跳不出的，就会连抓三页后判断为重复跳出

ym · 发表于 2016-8-31 18:27:01

分析一下翻页区，可以发现到了最后一页时，下一页对应的A节点的class值就变了，由@class='next'变为@class='next disable'，此时，可以把它作为翻页区映射到定位编号，这样翻页采集时就不会循环了。更多翻页循环的解决方法参见http://www.gooseeker.com/doc/article-148-1.html

【已解决，结贴】某网站爬取碰到（翻页或双爬虫线路问题），求指导

本帖子中包含更多资源

共 2 个关于本帖的回复最后回复于 2016-8-31 18:27

本帖子中包含更多资源

浏览过的版块

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

【已解决，结贴】某网站爬取碰到（翻页或双爬虫线路问题），求指导

本帖子中包含更多资源

共 2 个关于本帖的回复 最后回复于 2016-8-31 18:27

本帖子中包含更多资源

浏览过的版块

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2016-8-31 18:27