我想要爬取网易gacha论坛搜索结果页面作品作者的ID以及下载图片

论坛链接:http://gacha.163.com/search/resu ... &searchType=tag

这个网页没有下一页的按钮  向下滚动自动加载页面内容

我做完内容映射和样例复制后开启自动滚屏模式   之后存规则爬数据

在爬数据过程中一直出现抓取失败(超时),规则不合适或超时时间设置太短

请问我应该是在哪一步错了…
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-8-24 15:39

沙发
Fuller 管理员 发表于 2016-8-23 17:19:36 | 只看该作者
这种叫瀑布流网站,如果永远滚动不到低的话,你用自动滚屏方式不行,因为自动滚屏方式一定要到底才启动抓取。所以,你得使用连续动作的滚屏,滚一屏或者多屏,即时进行抓取,一边滚一边抓。具体看这里,注意“瀑布流”这个词:http://www.gooseeker.com/doc/article-141-1.html
举报 使用道具
板凳
yyj0828 初级会员 发表于 2016-8-23 17:24:52 | 只看该作者
Fuller 发表于 2016-8-23 17:19
这种叫瀑布流网站,如果永远滚动不到低的话,你用自动滚屏方式不行,因为自动滚屏方式一定要到底才启动抓取 ...

谢谢  
举报 使用道具
地板
yyj0828 初级会员 发表于 2016-8-23 17:47:54 | 只看该作者
Fuller 发表于 2016-8-23 17:19
这种叫瀑布流网站,如果永远滚动不到低的话,你用自动滚屏方式不行,因为自动滚屏方式一定要到底才启动抓取 ...

呃…不好意思 我刚刚看了您发的教程也按照教程设置了连续滚屏动作... 但是还是不行

能帮我看看我规则哪里出错了吗 谢谢

gacha论坛抓取规则
举报 使用道具
5#
HJLing 版主 发表于 2016-8-23 17:56:42 | 只看该作者
yyj0828 发表于 2016-8-23 17:47
呃…不好意思 我刚刚看了您发的教程也按照教程设置了连续滚屏动作... 但是还是不行

能帮我看看我规则哪 ...

你的规则做得有问题 直接加载就报错 要重新修改
举报 使用道具
6#
Fuller 管理员 发表于 2016-8-23 19:22:20 | 只看该作者
yyj0828 发表于 2016-8-23 17:47
呃…不好意思 我刚刚看了您发的教程也按照教程设置了连续滚屏动作... 但是还是不行

能帮我看看我规则哪 ...

加载你的规则,是失败的,错误原因如下:

使用了不当的id,在网页上,@id一般都是唯一的,而且在这个网页上,每个用户一个id,这样的话,抓取规则无法通用。具体原因我再仔细看看

举报 使用道具
7#
Fuller 管理员 发表于 2016-8-23 19:34:45 | 只看该作者

这个网页还挺麻烦的,要注意以下几点:

1,尽量用定位标志映射,定位标志映射能提高定位精度,我连样例复制都没有用,而是给顶层容器节点做了定位标志映射,也能抓取多样例

2,但是要注意,如果既有@class,也有@id,要观察哪个更合适,这个网页就不要用@id,因为每个内容的@id都有个编号,如果用上的话,就抓不了多样例

3,有些是没有作者ID的,所以,就不能在上面设置 关键内容,只给 图片地址 设置关键内容


举报 使用道具
8#
yyj0828 初级会员 发表于 2016-8-23 23:51:06 | 只看该作者
Fuller 发表于 2016-8-23 19:34
这个网页还挺麻烦的,要注意以下几点:
1,尽量用定位标志映射,定位标志映射能提高定位精度,我连样例复 ...

谢谢老师解惑..

那么我应该怎么区分在什么情况下尽量用样例复制在什么情况下用定位标志映射呢
举报 使用道具
9#
Fuller 管理员 发表于 2016-8-24 14:47:28 | 只看该作者
yyj0828 发表于 2016-8-23 23:51
谢谢老师解惑..

那么我应该怎么区分在什么情况下尽量用样例复制在什么情况下用定位标志映射呢 ...

定位标志映射更好一些,如果没有合适的定位标志,再用样例复制映射
举报 使用道具
10#
yyj0828 初级会员 发表于 2016-8-24 15:39:20 | 只看该作者
Fuller 发表于 2016-8-24 14:47
定位标志映射更好一些,如果没有合适的定位标志,再用样例复制映射

好的我明白了   再次感谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 20:49