本帖最后由 DAYUE888 于 2017-3-27 15:37 编辑

翻页次数设置300次,实际没有点击30次。也没有显示错误。规则名:smtcategorybyBlouses
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2017-3-28 16:51

沙发
quyixuan 金牌会员 发表于 2017-3-27 15:03:23 | 只看该作者
本帖最后由 quyixuan 于 2017-3-27 15:08 编辑

你有没有在浏览器先登录这个网站的账号
我自己运行这个规则没有登录账号的,爬取了十几页后会跳到登录页,爬取失败,然后就会结束采集
举报 使用道具
板凳
DAYUE888 中级会员 发表于 2017-3-27 15:11:17 | 只看该作者
quyixuan 发表于 2017-3-27 15:03
你有没有在浏览器先登录这个网站的账号

没有登录,但是这个是提示采集成功的。如果有问题不应该是采集失败吗?我现在登录再次测试。
举报 使用道具
地板
gz51837844 管理员 发表于 2017-3-27 15:20:51 | 只看该作者
DAYUE888 发表于 2017-3-27 15:11
没有登录,但是这个是提示采集成功的。如果有问题不应该是采集失败吗?我现在登录再次测试。
...

在论坛发帖, 不要设置不允许别人查看, 不然技术人员也没法跟进你的问题

举报 使用道具
5#
DAYUE888 中级会员 发表于 2017-3-27 15:37:54 | 只看该作者
gz51837844 发表于 2017-3-27 15:20
在论坛发帖, 不要设置不允许别人查看, 不然技术人员也没法跟进你的问题

...

我登录了还是一样的没有爬完!
举报 使用道具
6#
DAYUE888 中级会员 发表于 2017-3-27 15:38:18 | 只看该作者
quyixuan 发表于 2017-3-27 15:03
你有没有在浏览器先登录这个网站的账号
我自己运行这个规则没有登录账号的,爬取了十几页后会跳到登录页, ...

我登录了还是一样的没有爬完!
举报 使用道具
7#
quyixuan 金牌会员 发表于 2017-3-27 15:41:03 | 只看该作者
本帖最后由 quyixuan 于 2017-3-27 15:42 编辑
DAYUE888 发表于 2017-3-27 15:38
我登录了还是一样的没有爬完!

那就是网站本身不支持翻那么多页,新浪微博就是这样限制了翻页的,翻到一定程度就会失败
或者是中间某一页的网页结构不一样,导致翻页中断

举报 使用道具
8#
DAYUE888 中级会员 发表于 2017-3-27 15:48:49 | 只看该作者
quyixuan 发表于 2017-3-27 15:41
那就是网站本身不支持翻那么多页,新浪微博就是这样限制了翻页的,翻到一定程度就会失败
或者是中间某一页 ...

你测试了吗?我手动翻页可以的啊!我写的另外一个规则也是可以翻页上百页的。
举报 使用道具
9#
quyixuan 金牌会员 发表于 2017-3-27 16:00:06 | 只看该作者
DAYUE888 发表于 2017-3-27 15:48
你测试了吗?我手动翻页可以的啊!我写的另外一个规则也是可以翻页上百页的。
...

你可以参照一下这篇帖子
http://www.gooseeker.com/doc/thread-616-1-1.html

举报 使用道具
10#
Fuller 管理员 发表于 2017-3-27 17:43:27 | 只看该作者
DAYUE888 发表于 2017-3-27 15:48
你测试了吗?我手动翻页可以的啊!我写的另外一个规则也是可以翻页上百页的。
...

我刚才测试了一遍,每一页都盯着DS翻页,发现完成了27页,就要求账号和密码。

如果手工翻页没有遇到这种情况,可能是爬虫运行速度太快了。那就要启用爬虫群模式,设置调度参数,具体参看《如何运行爬虫群》。主要是两个参数:线索间等待最短时间和线索间等待最长时间,前者应该小于后者,比如,3,8,那么就会随机等到3-8秒。另外可以勾上全程模拟点击和高仿模拟点击,更不容易被识别为爬虫。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 23:17