集搜客GooSeeker网络爬虫
标题: 求助 这种情况应该要怎么解决 [打印本页]
作者: yyj0828 时间: 2016-8-23 17:16
标题: 求助 这种情况应该要怎么解决
我想要爬取网易gacha论坛搜索结果页面作品作者的ID以及下载图片
论坛链接:http://gacha.163.com/search/resu ... &searchType=tag
这个网页没有下一页的按钮 向下滚动自动加载页面内容
我做完内容映射和样例复制后开启自动滚屏模式 之后存规则爬数据
在爬数据过程中一直出现抓取失败(超时),规则不合适或超时时间设置太短
请问我应该是在哪一步错了…
作者: Fuller 时间: 2016-8-23 17:19
这种叫瀑布流网站,如果永远滚动不到低的话,你用自动滚屏方式不行,因为自动滚屏方式一定要到底才启动抓取。所以,你得使用连续动作的滚屏,滚一屏或者多屏,即时进行抓取,一边滚一边抓。具体看这里,注意“瀑布流”这个词:http://www.gooseeker.com/doc/article-141-1.html
作者: yyj0828 时间: 2016-8-23 17:24
谢谢
作者: yyj0828 时间: 2016-8-23 17:47
呃…不好意思 我刚刚看了您发的教程也按照教程设置了连续滚屏动作... 但是还是不行
能帮我看看我规则哪里出错了吗 谢谢
gacha论坛抓取规则
作者: HJLing 时间: 2016-8-23 17:56
你的规则做得有问题 直接加载就报错 要重新修改
作者: Fuller 时间: 2016-8-23 19:22
加载你的规则,是失败的,错误原因如下:
[attach]1340[/attach]
使用了不当的id,在网页上,@id一般都是唯一的,而且在这个网页上,每个用户一个id,这样的话,抓取规则无法通用。具体原因我再仔细看看
作者: Fuller 时间: 2016-8-23 19:34
[attach]1341[/attach]
这个网页还挺麻烦的,要注意以下几点:
1,尽量用定位标志映射,定位标志映射能提高定位精度,我连样例复制都没有用,而是给顶层容器节点做了定位标志映射,也能抓取多样例
2,但是要注意,如果既有@class,也有@id,要观察哪个更合适,这个网页就不要用@id,因为每个内容的@id都有个编号,如果用上的话,就抓不了多样例
3,有些是没有作者ID的,所以,就不能在上面设置 关键内容,只给 图片地址 设置关键内容
作者: yyj0828 时间: 2016-8-23 23:51
谢谢老师解惑..
那么我应该怎么区分在什么情况下尽量用样例复制在什么情况下用定位标志映射呢
作者: Fuller 时间: 2016-8-24 14:47
定位标志映射更好一些,如果没有合适的定位标志,再用样例复制映射
作者: yyj0828 时间: 2016-8-24 15:39
好的我明白了 再次感谢
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) |
Powered by Discuz! X3.2 |