制定了一个规则,共有100页,抓了36页就停了,为什么
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-3-1 09:22

沙发
Fuller 管理员 发表于 2016-2-25 19:06:16 | 只看该作者
请告知主题名,我们可以做检查,如果是翻页停止,很可能是设置了定时器触发,导致“下一页”还没有生效就去点击
举报 使用道具
板凳
it9527 禁止发言 发表于 2016-2-25 20:23:49 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
举报 使用道具
地板
lijunke 初级会员 发表于 2016-2-26 08:07:35 | 只看该作者
Fuller 发表于 2016-2-25 19:06
请告知主题名,我们可以做检查,如果是翻页停止,很可能是设置了定时器触发,导致“下一页”还没有生效就去 ...

主题名:淘宝店铺信息_1
举报 使用道具
5#
Fuller 管理员 发表于 2016-2-26 09:29:29 | 只看该作者
lijunke 发表于 2016-2-26 08:07
主题名:淘宝店铺信息_1

我加载看了,规则做得挺好,翻页规则也正确,如下
  1. //*[@class='ui-page']//a[.//text()="下一页>>"]
复制代码

先 用ui-page确定翻页区,然后用标志 “下一页”确定点击位置。很合适。那么做如下检查
1,每次中断是否在相同页码?如果在相同页码,在MS谋数台上加载了抓取规则以后,翻页到那里,选择菜单 文件-》分析页面,看看是否有分析失败的情况
2,把DS打数机运行中断以后的界面截个图,主要截下部日志窗口,看看是什么报错日志
3,检查 定时器触发 是不是打开了,如果打开了,那么暂时关闭,重新测试。定时器触发会过早执行抓取,那时候“下一页”翻页条还没有显示出来就去点击,会失败
4,一直观察DS打数机窗口,看看翻页到中断的时候有没有出现验证码。

如果是手工启动的抓取,没有停歇功能,会过于频繁抓取网页,遭到封锁,可以用会员中心的爬虫调度功能,设置一个间歇时间。具体看爬虫群的介绍:http://www.gooseeker.com/doc/article-200-1.html
举报 使用道具
6#
lijunke 初级会员 发表于 2016-2-26 16:09:08 | 只看该作者
Fuller 发表于 2016-2-26 09:29
我加载看了,规则做得挺好,翻页规则也正确,如下

先 用ui-page确定翻页区,然后用标志 “下一页”确定 ...

按照所提示进行了调度,和以前的结果一样
抓取失败(超时),抓取规则不合适或者超时时间设置太短
举报 使用道具
7#
Fuller 管理员 发表于 2016-2-26 17:09:21 | 只看该作者
你可以观察一下窗口,看看验证码有没有出现,我这里挺好,运行正常,另外还有一个从中断的地方接上的方法,这个这个网址
  1. https://list.tmall.com/search_product.htm?type=pc&q=%D7%A8%C2%F4%B5%EA&totalPage=100&sort=s&style=w&from=.list.pc_1_searchbutton&jumpto=80
复制代码
里面的jumpto=80就是页码,如果你在35也中断了,那么构造一个jumpto=35的网址,在会员中心-》爬虫管理-》规则管理那里,添加线索,那么用新线索从中断的地方开始爬

举报 使用道具
8#
Fuller 管理员 发表于 2016-2-26 17:21:32 | 只看该作者
lijunke 发表于 2016-2-26 16:09
按照所提示进行了调度,和以前的结果一样
抓取失败(超时),抓取规则不合适或者超时时间设置太短 ...

看到那个中断位置了,到那一页,主营品牌就没有了,而你把这个抓取内容设置成 关键内容 ,抓不到就失败了。你可以不设置这个的关键内容,但是一定要有一个抓取内容设置成关键内容
举报 使用道具
9#
lijunke 初级会员 发表于 2016-3-1 08:13:37 | 只看该作者
Fuller 发表于 2016-2-26 17:21
看到那个中断位置了,到那一页,主营品牌就没有了,而你把这个抓取内容设置成 关键内容 ,抓不到就失败了 ...

分析了2天,也发现了这个问题,这个还能调出来修改吗?
举报 使用道具
10#
Fuller 管理员 发表于 2016-3-1 09:22:01 | 只看该作者
lijunke 发表于 2016-3-1 08:13
分析了2天,也发现了这个问题,这个还能调出来修改吗?

规则加载方法看这里:http://www.gooseeker.com/doc/article-124-1.html

那些缺少的内容,不要设置“关键内容”,一个抓取规则至少给一个抓取内容设置“关键内容”,其它根据需要设置
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-11 13:24