我参照数据DIY的无讼案例网的样本网址构造详情页网址,但是导入总是有问题,导入后数量变少了,而且有些网址能用有些不能用。
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-2-24 22:52

沙发
Fuller 管理员 发表于 2017-2-24 22:43:15 | 只看该作者
你这些网址是怎么生成的?似乎都不对,这些网址拷到浏览器中都不行,全部是空白的

举报 使用道具
板凳
gooseeker_info 金牌会员 发表于 2017-2-24 22:44:26 | 只看该作者
怎么回事呢,一会好使一会不好使的
excel拼的
分成三部分,最后&再一起,因为变的数字在中间
举报 使用道具
地板
Fuller 管理员 发表于 2017-2-24 22:47:22 | 只看该作者
gooseeker_info 发表于 2017-2-24 22:44
怎么回事呢,一会好使一会不好使的
excel拼的
分成三部分,最后&再一起,因为变的数字在中间 ...

比如这个:http://www.itslaw.com/detail?jud ... B%E6%B0%91%E4%BA%8B

这个是案例ID:judgementId=ae3026fb-a766-4b3b-8cff-2fceee7d7798  ,每个案例都是唯一的,你这一大片都一样的id,构造方法肯定有问题

其实跟这个是同一个:file:///C:\Users\work\AppData\Roaming\Tencent\QQ\Temp\%W@GJ$ACOF(TYDYECOKVDYB.pnghttp://www.itslaw.com/detail?judgementId=ae3026fb-a766-4b3b-8cff-2fceee7d7798
后者没有那些查询条件,只是在网页上显示的是有没有红色字的,其他内容都一样。如果你能拿到那个id,就不用这么长的网址了


还有就是网址太长了,虽然能存这么长,但是判断是否重复的时候是用最前面的220个字符,你这些网址很多都是前220个字符相同,那么就会当成相同网址被过滤掉。这就是你导入后发现数量变少的原因

要用短网址,你就用这种:http://www.itslaw.com/detail?jud ... b-8cff-2fceee7d7798
但是我不知道你到哪里去拿这个 judgementId=ae3026fb-a766-4b3b-8cff-2fceee7d7798,拿到这个才是关键,才能构造网址

举报 使用道具
5#
gooseeker_info 金牌会员 发表于 2017-2-24 22:48:20 | 只看该作者
怎么变呢,例如下一条是什么
举报 使用道具
6#
Fuller 管理员 发表于 2017-2-24 22:48:39 | 只看该作者
我也不知道,说不定这个网站是随机生成,我没有看出规律
举报 使用道具
7#
Fuller 管理员 发表于 2017-2-24 22:50:45 | 只看该作者
这个你得研究一下,找出规律来
原先你的网址后面那些conditions都是没有必要的,关键就是前面这些

你应该用这个规则先爬列表:http://www.gooseeker.com/res/dat ... B%E5%88%97%E8%A1%A8

就能得到这样的id:judgementId=ae3026fb-a766-4b3b-8cff-2fceee7d7798
举报 使用道具
8#
gooseeker_info 金牌会员 发表于 2017-2-24 22:50:58 | 只看该作者
列表是瀑布流网页,我爬到4000多就停止了,弄好几次都是
其实我需要的数据是5000多
搜索结果是5000多,只爬到4000多就停止,有的时候2000多就停
好不容易弄4000多
举报 使用道具
9#
Fuller 管理员 发表于 2017-2-24 22:52:07 | 只看该作者

手工在这里选条件,让他不要超过4000
举报 使用道具
10#
gooseeker_info 金牌会员 发表于 2017-2-24 22:52:20 | 只看该作者
也是一种办法,就是费点劲
不过也太费劲了,这里好多啊,每个都几百
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 09:59