一个一级规则可以对应两个二级规则吗
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-5-25 17:04

沙发
Fuller 管理员 发表于 2017-5-24 17:22:10 | 只看该作者
不行,因为在第一级规则里要指定第二级规则的名字。 看  层级抓取教程的2.3   http://www.gooseeker.com/doc/article-343-1.html

你可以把第一级规则稍微修改一下,重新指定第二级规则的名字,然后修改过的第一级规则存为另一个规则名。
举报 使用道具
板凳
uconmbc 初级会员 发表于 2017-5-24 17:28:48 | 只看该作者
Fuller 发表于 2017-5-24 17:22
不行,因为在第一级规则里要指定第二级规则的名字。 看  层级抓取教程的2.3   http://www.gooseeker.com/do ...

这样抓下来的数据文件怎样对应在一起呢
举报 使用道具
地板
Fuller 管理员 发表于 2017-5-24 17:42:57 | 只看该作者
uconmbc 发表于 2017-5-24 17:28
这样抓下来的数据文件怎样对应在一起呢

在楼上我回答的那个说错了,没有完全理解你的意思。

你的意思是不是:
1,一级规则是A
2,在规则A中要定义两个下级规则B和C

这种是可以的,下级规则的数量是不限的。
举报 使用道具
5#
uconmbc 初级会员 发表于 2017-5-24 17:48:42 | 只看该作者
Fuller 发表于 2017-5-24 17:42
在楼上我回答的那个说错了,没有完全理解你的意思。

你的意思是不是:

那这样同一个商品是不是就生成两个文件了
举报 使用道具
6#
Fuller 管理员 发表于 2017-5-24 17:49:26 | 只看该作者
多级规则串在一起的方法是根据结果文件中的字段,参看《结果文件的结构

1,一级规则的采集结果部分必然有下级规则的网址,比如,A
2,那么在二级规则的结果文件中,fullpath字段就是A

但是有可能在一级规则中,网址A是一个相对网址,没有完整的 http开头部分,那么在处理一级结果的时候,需要把一级结果文件的realpath和A合并,生成完整的网址,就能与二级结果的fullpath对上
举报 使用道具
7#
Fuller 管理员 发表于 2017-5-24 17:51:36 | 只看该作者
uconmbc 发表于 2017-5-24 17:48
那这样同一个商品是不是就生成两个文件了

你的下一级用做了两个规则,但是采集的是同一个页面?

这样没有必要做两个规则。如果是网页上两块不同的内容,那么用两个整理箱就行了。
当然,允许你用两个规则采集同一个页面,那样会生成两个文件,一个规则一个文件。而且,同一个网页会加载两次。如果采集网页数量特别多的时候,相当于占用了两倍网络带宽
举报 使用道具
8#
uconmbc 初级会员 发表于 2017-5-25 09:40:24 | 只看该作者
Fuller 发表于 2017-5-24 17:51
你的下一级用做了两个规则,但是采集的是同一个页面?

这样没有必要做两个规则。如果是网页上两块不同的 ...

两个整理箱一起抓的情况我试过,就是数据很多都会漏抓,但是两个分开抓就全部都能抓下来。就是这个问题解决不了。

举报 使用道具
9#
Fuller 管理员 发表于 2017-5-25 09:48:36 | 只看该作者
uconmbc 发表于 2017-5-25 09:40
两个整理箱一起抓的情况我试过,就是数据很多都会漏抓,但是两个分开抓就全部都能抓下来。就是这个问题解 ...

多个整理箱一般不会漏抓,因为每个整理箱都用自己的转换规则,两个不会发生关联的。你要抓的网页是什么?漏抓的规则还在不在?可以帮你分析一下
举报 使用道具
10#
uconmbc 初级会员 发表于 2017-5-25 09:55:01 | 只看该作者
Fuller 发表于 2017-5-25 09:48
多个整理箱一般不会漏抓,因为每个整理箱都用自己的转换规则,两个不会发生关联的。你要抓的网页是什么? ...

规则名是 华为P10一层、华为P10二层,打数机那些滚屏都调好了,要是做定位的话漏抓更严重。一直解决不了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 19:00