本帖最后由 maxno100 于 2016-8-31 17:09 编辑
根据一上午的学习我认为本网站爬取信息分为三步
1、从网站首页页面爬取到每个城市的主页面(已完成)
2、读取步骤一里面的URL,爬取到每个页面的URL(存在问题)
涉及到两个问题
问题一、两个爬虫路线,其中爬虫路线1用于读取步骤1里面的URL,爬虫线路2用于模拟翻页操作(测试过如果不翻页可以正常操作,如果加入翻页就进入死循环,与该网页的特性有关,问题二进行详述)
问题二、网页很特殊在翻到末页时候仍存在,下一页按钮
目前看循环序列是对的,怀疑就是不能正常跳出循环的问题,求教如何解决
使用“相对线索”即可
3、进行网页内容爬取(已完成)
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 2 个关于本帖的回复 最后回复于 2016-8-31 18:27