举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-11-21 19:34

沙发
Fuller 管理员 发表于 2016-11-20 17:32:01 | 只看该作者
我估计是因为网页上两个内容的@class一样,造成了抓取混乱。可以参看这两个帖子:《避免不合适的定位标志影响抓取规则》,《用父节点的@class做映射防止子节点有相同的class造成的混乱


关于三层直接是否有影响,我没有看懂你的意思。你可以把三层的主题名贴出来,我有管理员权限,可以加载分析一下你的规则是否合适
举报 使用道具
板凳
A2467800302 初级会员 发表于 2016-11-21 14:11:30 | 只看该作者
嗯嗯,第一个@class相同那个木有问题了,多谢。
我想问的第二个问题是
第一层网址是所有的帖子列表http://bbs.xiaomi.cn/f-390-0-0-lastpost-988-0-1,第二层是某个帖子具体的内容http://bbs.xiaomi.cn/t-4989115,第三层是发表这个帖子的作者信息http://bbs.xiaomi.cn/u-detail-9759670
我设定的规则是
第一层内容映射,样例复制,下级线索;第二层内容映射,下级线索;第三层内容映射。
这个规则有问题没?
举报 使用道具
地板
HJLing 版主 发表于 2016-11-21 14:21:13 | 只看该作者
A2467800302 发表于 2016-11-21 14:11
嗯嗯,第一个@class相同那个木有问题了,多谢。
我想问的第二个问题是
第一层网址是所有的帖子列表http://b ...

没有问题 样例复制不是一定要做的 不需要就不用做 不影响后面的规则

举报 使用道具
5#
A2467800302 初级会员 发表于 2016-11-21 14:57:57 | 只看该作者
但是这样抓取完以后,第二层级的线索是49个,第三层级的线索只有38个,第三层级把重复的发帖人信息自动过滤了,肿么办
举报 使用道具
6#
HJLing 版主 发表于 2016-11-21 15:33:09 | 只看该作者
A2467800302 发表于 2016-11-21 14:57
但是这样抓取完以后,第二层级的线索是49个,第三层级的线索只有38个,第三层级把重复的发帖人信息自动过滤 ...

是会过滤掉 因为发帖人一样网址就一样程序就去重了 但是你用网址一样可以匹配到发帖人

举报 使用道具
7#
A2467800302 初级会员 发表于 2016-11-21 19:34:33 | 只看该作者
哦哦,好哒,辛苦啦,多谢解惑
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-8 01:25