为什么加入爬虫群后一级规则只爬了一部分就结束了?我的主题是:东方财富上证指数
我希望他一直爬  爬2个月的数据出来 ,可是一级规则只从4月24日爬到4月17日 就停止了,然后二级规则还在继续,这是为什么呢?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-4-24 23:21

沙发
Fuller 管理员 发表于 2017-4-24 21:53:51 | 只看该作者
我看了这个规则,是层级抓取,很常见的模式,你是发现第一级翻页没有多少就中断了?每个结果文件中都有pageno字段,找到最后一个,看看到多少,可以把那一个网页加载上来,分析一下抓取规则是否适合他。

还有一点好奇怪,你做样例复制的时候,为什么不从第一和第二个开始?这样每页都会漏掉前面的帖子。

另外,这个网站的每个分页都有独立的网址,页码就在网址中,你可以替换这些页码,把每个分页的网址构造出来,分别抓,所以,你的一级规则都不用定义翻页规则。
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-24 21:55:34 | 只看该作者
构造网址的具体方法参看《如何构造网址和导入线索
举报 使用道具
地板
17816856416 新手上路 发表于 2017-4-24 23:02:07 | 只看该作者
Fuller 发表于 2017-4-24 21:53
我看了这个规则,是层级抓取,很常见的模式,你是发现第一级翻页没有多少就中断了?每个结果文件中都有page ...

啊!每一页都漏掉几个是因为我,以为第一页上面那些精华置顶那些可以去掉的,,,就没选进去。

一级规则是正好扒完了一个压缩包,他就不继续爬了,,,,是巧合吗?我是不是不应该用爬虫群去爬。我看了那个pageno ,  我直接点开了前面的网址链接,很普通的页面应该没什么问题吧。
举报 使用道具
5#
Fuller 管理员 发表于 2017-4-24 23:21:23 | 只看该作者
17816856416 发表于 2017-4-24 23:02
啊!每一页都漏掉几个是因为我,以为第一页上面那些精华置顶那些可以去掉的,,,就没选进去。

一级规则 ...

并不是因为生成了压缩包才导致翻页中断,是因为翻页中断了,从而开始打包入库。

手工单搜和自动的爬虫群没有本质区别,只是他们需要的参数有不同的设置方法。单搜使用的参数是通过DS打数机菜单设置的。爬虫群的参数是在会员中心设置的。只要把他们的参数设置成一样的,他们的行为就是一致的。

我建议你放慢采集速度,参看《怎样放慢采集速度》,很可能采集太快,翻页取还没有显示出来,爬虫就试图去翻页,从而失败了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-13 12:05