请问一下技术支持,无讼案例的列表页采取“加载更多”的方式显示更多内容,使用集搜客提供的规则抓取时,最多加载二百多次就会中断,但不显示“失败”,显示的是“成功”。加载二百多次连该列表页的二十分之一都不到,而且根本无法从中断的地方接着抓取,每次从头来,结果都一样。请问究竟是哪里出了问题?

规则地址:http://www.gooseeker.com/res/detail_113952.html

用于测试规则的线索网址:http://www.itslaw.com/search?searchMode=judgements&sortType=1&conditions=region%2B1%2B1%2B%E5%8C%97%E4%BA%AC%E5%B8%82

举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-11-11 15:22

沙发
HJLing 版主 发表于 2016-11-10 10:15:53 | 只看该作者
你的软件版本是多少?
可能是因为没有滚到最下方再来点击“加载更多” 导致后面不会点击
之前的版本有这个bug 你可以下载最新版爬虫 再试试
把滚屏次数调大一点
举报 使用道具
板凳
gwqagent 中级会员 发表于 2016-11-11 14:50:17 | 只看该作者
回复版主,收到你的建议后,我下载了最新版本的软件(我买的是旗舰版),调大了滚屏次数,经过多次测试,但我仍然发现最多只能加载200页左右。后来手工点击“加载更多”统计了一下,最多加载200次,第201次的时候,网页不在加载。这种限制能否破解,如何破解?
举报 使用道具
地板
HJLing 版主 发表于 2016-11-11 14:57:23 | 只看该作者
gwqagent 发表于 2016-11-11 14:50
回复版主,收到你的建议后,我下载了最新版本的软件(我买的是旗舰版),调大了滚屏次数,经过多次测试,但 ...

网站的限制不能破解 最多翻200页就是4000条数据
那你可以再对这些数据再进行细分 页面左侧有关键词年份这些分类方式 都有独立网址的 你分类之后只要不超过4000就可以了 把分类后的网址拿去采集

举报 使用道具
5#
gwqagent 中级会员 发表于 2016-11-11 15:12:52 | 只看该作者
以北京市朝阳区人民法院为例,即使再怎么细分,细分完之后的筛选结果仍然多于4000条。
所以这种方法顶多算一个权宜之计,实用性不高。一是需要人工进行细分筛选,耗费大量人力,自动化派不上用场;二是即使再怎么样细分,最后还是会有大量的内容被遗漏,如果无法穷尽无讼案例网站的内容,在本地建立数据库的意义就不大了——还不如使用无讼网站在线检索呢。
举报 使用道具
6#
HJLing 版主 发表于 2016-11-11 15:22:54 | 只看该作者
那没办法这是网站的限制 如果网站的限制那么轻易就被外人破解那也太水了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 05:03