任务名:multitran_RU-EN_0001_单词部分_第一级
添加的新线索是:https://www.multitran.com/m.exe?a=110&l1=2&l2=1&sc=4
就是在采集这个新线索时出现的问题。采集不全的问题在以前各线索采集时也是一直出现的,只是有时缺少的内容不多,所以没有管它。


捕获1.PNG (169.85 KB, 下载次数: 513)

只采集到这里

只采集到这里

捕获.PNG (72.87 KB, 下载次数: 520)

添加的新线索

添加的新线索
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2020-7-9 17:28

沙发
lan_1985 金牌会员 发表于 2020-7-9 11:09:23 | 只看该作者
本帖最后由 lan_1985 于 2020-7-9 11:10 编辑

我加载了你的规则看了下,单词下面有5个链接,测试出来这些链接是一样的

我看了下网页,应该是每个单词对应一个链接。

举报 使用道具
板凳
lan_1985 金牌会员 发表于 2020-7-9 11:13:20 | 只看该作者
链接这里,要勾选补全网址


举报 使用道具
地板
qqqaas 初级会员 发表于 2020-7-9 14:01:47 | 只看该作者
链接是一样的,因需要把同一个链接分配到不同的任务名里去(下级线索不一样),所以对同一链接进行了多次采集。
举报 使用道具
5#
qqqaas 初级会员 发表于 2020-7-9 14:09:02 | 只看该作者
采集不全的原因具体是什么呢?就是因为连续五次采集了相同的链接吗?
举报 使用道具
6#
lan_1985 金牌会员 发表于 2020-7-9 14:30:19 | 只看该作者
qqqaas 发表于 2020-7-9 14:09
采集不全的原因具体是什么呢?就是因为连续五次采集了相同的链接吗?

那规则是没有问题的,我这边测试这条有问题的线索,没有漏掉的信息。你说的漏掉的信息,是指后面翻页后会漏掉信息吗?
可以把有缺失数据的地方截个图出来吗?
举报 使用道具
7#
qqqaas 初级会员 发表于 2020-7-9 15:01:24 | 只看该作者
lan_1985 发表于 2020-7-9 14:30
那规则是没有问题的,我这边测试这条有问题的线索,没有漏掉的信息。你说的漏掉的信息,是指后面翻页后会 ...

我最开始就已经上传了图片,我当时采集的时候就只采集到箭头以上部分,俄语有33个字母,只采集到С

微信截图_20200709145959.png (47.97 KB, 下载次数: 517)

微信截图_20200709145959.png

微信截图_20200709145429.png (521.96 KB, 下载次数: 564)

微信截图_20200709145429.png
举报 使用道具
8#
qqqaas 初级会员 发表于 2020-7-9 15:03:22 | 只看该作者
每次采集,采集遗漏的地方可能不一样。
举报 使用道具
9#
qqqaas 初级会员 发表于 2020-7-9 15:06:13 | 只看该作者
С-Я部分都没采集到,这个就跟英语词典词汇编排顺序一样,是按字母排序的。
举报 使用道具
10#
lan_1985 金牌会员 发表于 2020-7-9 16:05:55 | 只看该作者
好的,我测试下看看
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 20:15