12 12499

裁判文书网2y

wangyong 于 2017-3-6 14:58 发表 [复制链接]
我新发布了一个采集规则:
裁判文书网2y


详细信息:
采集裁判文书每篇文书的的详情页内容,由规则《裁判文书网1y》生成线索。

希望大家喜欢!下载地址:
http://www.gooseeker.com/res/detail_206001.html
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-11-15 17:15

lihuimiaomiao 新手上路 发表于 2017-3-22 14:08:47 | 显示全部楼层
举报 使用道具
hzlpachong 新手上路 发表于 2017-3-30 14:28:01 | 显示全部楼层
你好,请问这个规则可以爬取中国裁判文书网上面的全部文书吗?2700万份?
举报 使用道具
Fuller 管理员 发表于 2017-3-30 15:04:14 | 显示全部楼层
hzlpachong 发表于 2017-3-30 14:28
你好,请问这个规则可以爬取中国裁判文书网上面的全部文书吗?2700万份?

不知道近来这个网站是否改过版,以前的版本是:翻页查看更多文书的时候,页码越大,翻页越困难,所以,要把所有2700万份采集完几乎不太可能。需要很多迂回的方案,比如,调整搜索条件,缩小搜索范围,每次需要的翻页数量就会减少。但是这样就会有重复,一个条件采集到的文书与另一个条件采集到的有重复。

总之,要采集2700万份,是一个成本很高的任务
举报 使用道具
hzlpachong 新手上路 发表于 2017-3-30 16:19:55 | 显示全部楼层
Fuller 发表于 2017-3-30 15:04
不知道近来这个网站是否改过版,以前的版本是:翻页查看更多文书的时候,页码越大,翻页越困难,所以,要 ...

谢谢您的回复和解释。那如果我只爬取某一类案件,数据量是 几十万份的话,大概需要多长时间呢?可以比较顺利爬取下来吗?


我刚刚接触这一块,计算机基础比较差,麻烦你了!谢谢!
举报 使用道具
Fuller 管理员 发表于 2017-3-30 16:22:50 | 显示全部楼层
hzlpachong 发表于 2017-3-30 16:19
谢谢您的回复和解释。那如果我只爬取某一类案件,数据量是 几十万份的话,大概需要多长时间呢?可以比较 ...

假设不是实测而是估计,通常我们担心网站封锁爬虫,所以根据经验让爬虫运行不要太快,一般4秒一个网页就比较安全。一天多少秒就能算出来能采集多少网页。为了采集更快,我们会用多台电脑,而且让他们各自用各自的IP地址
举报 使用道具
hzlpachong 新手上路 发表于 2017-3-30 16:25:05 | 显示全部楼层
Fuller 发表于 2017-3-30 16:22
假设不是实测而是估计,通常我们担心网站封锁爬虫,所以根据经验让爬虫运行不要太快,一般4秒一个网页就 ...

你好,可以加QQ沟通吗?
举报 使用道具
Fuller 管理员 发表于 2017-3-30 16:27:30 | 显示全部楼层
hzlpachong 发表于 2017-3-30 16:25
你好,可以加QQ沟通吗?我的QQ是644514749

我已加你
举报 使用道具
hellokky 新手上路 发表于 2017-5-2 22:04:33 | 显示全部楼层
积分不够啊 继续
举报 使用道具
Fuller 管理员 发表于 2017-5-2 22:12:36 | 显示全部楼层
hellokky 发表于 2017-5-2 22:04
积分不够啊 继续

在这里顶贴不送积分的,要在外边的网站上发贴
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 23:33