用户gooseeker_info新发布了一个采集规则:
网易跟帖3_gooseeker
详细信息:
这是一个实例,抓取网易新闻跟帖,网易新闻跟帖有如下特点:1,网页上有很多class和id,可以用来做定位标志映射,以提高抓取规则的适应度2,抓取多个样例的时候,可以不只使用样例复制映射,用定位标志映射,给最顶层的list抓取内容做定位标志映射,要选择class作为定位标志,不要用id,因为id是唯一的3,这个网页上有很多js代码,一直运行,可以设置定时器触发,提高抓取速度

希望大家喜欢!下载地址: http://www.gooseeker.com/res/detail_89434.html
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-3-24 22:20

沙发
Maisie_Yang 新手上路 发表于 2016-3-5 01:45:42 | 只看该作者
抓取到997页244033440线索就抓取失败了,请问应该如何继续呢?
举报 使用道具
板凳
Fuller 管理员 发表于 2016-3-5 09:22:09 | 只看该作者
每个分页没有独立网址,想从998页开始接上很难,如果再从头抓,一次性翻到低的可能性还是比较低。

有个偷巧的方法:这个网页有最后一页,做一个多层规则
1,第一级,先去点最后一页,进入第二级
2,第二级,使用翻页标志“上一页”,从后往前翻

两次结果合在一起就更全一些
举报 使用道具
地板
Maisie_Yang 新手上路 发表于 2016-3-5 10:49:54 | 只看该作者
Fuller 发表于 2016-3-5 09:22
每个分页没有独立网址,想从998页开始接上很难,如果再从头抓,一次性翻到低的可能性还是比较低。

有个偷 ...

您的意思是再做一个一级规则,通过记号映射,将原先的规则名作为目标主题名,然后去原来的规则里把下一页的那个记号设置成上一页吗?我昨天才开始学习的,请见谅。
举报 使用道具
5#
Fuller 管理员 发表于 2016-3-5 11:29:06 | 只看该作者
Maisie_Yang 发表于 2016-3-5 10:49
您的意思是再做一个一级规则,通过记号映射,将原先的规则名作为目标主题名,然后去原来的规则里把下一页 ...

是的,要用另外一个主题名,做另一个规则。可以基于现有的这个规则,把“命名主题”和“爬虫路线”里面的主题名都改掉,把线索映射该成“上一页”。

在从头做一个上级规则,专门点击最后一页那个按钮
举报 使用道具
6#
Maisie_Yang 新手上路 发表于 2016-3-5 21:09:23 | 只看该作者
Fuller 发表于 2016-3-5 11:29
是的,要用另外一个主题名,做另一个规则。可以基于现有的这个规则,把“命名主题”和“爬虫路线”里面的 ...

已做完~感谢!
举报 使用道具
7#
Maisie_Yang 新手上路 发表于 2016-3-6 14:39:22 | 只看该作者
Fuller 发表于 2016-3-5 11:29
是的,要用另外一个主题名,做另一个规则。可以基于现有的这个规则,把“命名主题”和“爬虫路线”里面的 ...

把数据拉在一起发现还是少了中间的100页,我后面做的这个规则名是:网易一级01和网易二级。原网页链接是:http://comment.news.163.com/news ... EC0001B0S22TQ1.html
请问该如何调整?
举报 使用道具
8#
Fuller 管理员 发表于 2016-3-6 17:32:46 | 只看该作者
Maisie_Yang 发表于 2016-3-6 14:39
把数据拉在一起发现还是少了中间的100页,我后面做的这个规则名是:网易一级01和网易二级。原网页链接是 ...

中间缺,说明从前往后翻和从后往前翻没有接上,中间中断了。那么需要从某个方向再激活线索抓一遍
举报 使用道具
9#
Maisie_Yang 新手上路 发表于 2016-3-6 17:33:32 | 只看该作者
Fuller 发表于 2016-3-6 17:32
中间缺,说明从前往后翻和从后往前翻没有接上,中间中断了。那么需要从某个方向再激活线索抓一遍 ...

都试过 并不能把中间的弄出来、、、
举报 使用道具
10#
Fuller 管理员 发表于 2016-3-6 18:28:43 | 只看该作者
Maisie_Yang 发表于 2016-3-6 17:33
都试过 并不能把中间的弄出来、、、

如果网站对数据有限制,就难对付了。

还有就是把滚屏速度变成-2(额外滚屏次数保持2不变即可),这样就会更慢,看看能否有改善
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 19:30