主题名是 第一级:选择创业投资基金;第二级:查询基金;第三级:基金协会股权基金

在使用翻页功能时,出现了一个问题,不太明白原因和解决方案。

情况是看到页面确实是一页一页在翻,没有问题,但是抓取过程中会报错“查询失败,请联系管理员”。抓取结果的具体问题是,抓取的页面数量是正确的,比如一共有10页,那确实产生了10个xml文件。但是其中有的文件抓的是同一页,有的页又没有被抓下来。比方说,有可能第3页没有抓下来,但是显示了两个第2页,然后就是第4页。

不知道是不是哪里参数设置有问题?


举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-5-30 17:15

沙发
gz51837844 管理员 发表于 2017-5-28 17:00:51 | 只看该作者
你说的“查询失败,请联系管理员”,是目标网页给出的信息吗?
你截个图看看
举报 使用道具
板凳
Fuller 管理员 发表于 2017-5-28 17:05:55 | 只看该作者
我测试了,这套规则没有问题,提示“查询失败”是目标网站提示的。抓取的时候,可以把DS打数机的滚屏功能打开,这样能等待的时间长一些。选择DS打数机的菜单 配置-》滚屏参数,设置滚屏次数,设置成大于0的数字,比如5
举报 使用道具
地板
yueguansz 中级会员 发表于 2017-5-28 17:08:04 | 只看该作者
gz51837844 发表于 2017-5-28 17:00
你说的“查询失败,请联系管理员”,是目标网页给出的信息吗?
你截个图看看 ...

是DS机弹出了一个框框,好像说不好是哪一页的时候出现这个问题,没什么规律。我先试试下面管理员提到的改参数的方法!
举报 使用道具
5#
yueguansz 中级会员 发表于 2017-5-28 17:08:35 | 只看该作者
Fuller 发表于 2017-5-28 17:05
我测试了,这套规则没有问题,提示“查询失败”是目标网站提示的。抓取的时候,可以把DS打数机的滚屏功能打 ...

好的 我试试
举报 使用道具
6#
yueguansz 中级会员 发表于 2017-5-28 17:22:26 | 只看该作者
Fuller 发表于 2017-5-28 17:05
我测试了,这套规则没有问题,提示“查询失败”是目标网站提示的。抓取的时候,可以把DS打数机的滚屏功能打 ...

我试了下,还是会出现这个问题呢,只是出现的频率低了些,时间也靠后了,前200页都没问题,但是后面还是有问题呢
举报 使用道具
7#
yueguansz 中级会员 发表于 2017-5-30 17:15:39 | 只看该作者
试了下,似乎和网速也有关系,如果网速好一些,会好很多。此外滚屏参数也不能调太慢。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-18 21:31