11#
Lucky嗨嗨 初级会员 发表于 2017-9-15 12:41:10 | 只看该作者
Fuller 发表于 2017-9-14 18:48
百度搜索结果中的网址是百度自己做了编码的,如果你想要原始网址,必须做一个两层抓取,第一层把编了码的网 ...

我试了一下、第二层怎么设置?还是设置抓取网址吗?再抓一次啊?另外为什么我抓取的第一层的网址数量不够?比如百度搜索一个关键词后第一页出来十个结果,但是我只抓到了七个?这是为什么啊?试了很多遍了、也换了关键词!求指教
举报 使用道具
12#
umsung 高级会员 发表于 2017-9-15 14:11:42 | 只看该作者
本帖最后由 umsung 于 2017-9-15 14:30 编辑

你的规则名是什么?
1,二级规则抓取网址直接映射@href值不行吗?
2,抓取不全一般都是定位不到导致的,可以把定位标志改成决定定位试试,如果不行就做定位标志映射。
举报 使用道具
13#
Lucky嗨嗨 初级会员 发表于 2017-9-23 14:07:19 | 只看该作者
umsung 发表于 2017-9-15 14:11
你的规则名是什么?
1,二级规则抓取网址直接映射@href值不行吗?
2,抓取不全一般都是定位不到导致的,可 ...

地质信息
举报 使用道具
14#
ym 版主 发表于 2017-9-23 15:54:00 | 只看该作者
本帖最后由 ym 于 2017-9-23 16:03 编辑
Lucky嗨嗨 发表于 2017-9-15 12:41
我试了一下、第二层怎么设置?还是设置抓取网址吗?再抓一次啊?另外为什么我抓取的第一层的网址数量不够 ...

搜索结果里包含了广告或者是特殊的网页结果,它们的网页结构与普通的搜索结果不同,你做的规则没覆盖到这些结构,就会比实际少

第二层规则只要建立一个抓取内容,把网页的html顶节点做内容映射,就可以通用采集第二层网页,不用专门抓网址,因为网址信息会自动记录在结果文件中的realpath字段中

举报 使用道具
15#
Lucky嗨嗨 初级会员 发表于 2017-9-23 17:07:49 | 只看该作者
ym 发表于 2017-9-23 15:54
搜索结果里包含了广告或者是特殊的网页结果,它们的网页结构与普通的搜索结果不同,你做的规则没覆盖到这 ...

不用专门抓网址是什么意思?不是要让网址作为下层线索吗?

举报 使用道具
16#
Lucky嗨嗨 初级会员 发表于 2017-9-23 17:24:09 | 只看该作者
ym 发表于 2017-9-23 15:54
搜索结果里包含了广告或者是特殊的网页结果,它们的网页结构与普通的搜索结果不同,你做的规则没覆盖到这 ...

我应该怎么做规则才会覆盖到全部的结果啊?大神指点!拜托了!

举报 使用道具
17#
ym 版主 发表于 2017-9-23 18:10:25 | 只看该作者
Lucky嗨嗨 发表于 2017-9-23 17:07
不用专门抓网址是什么意思?不是要让网址作为下层线索吗?

第一级规则对网址设置下级线索,第二级规则建立一个抓取内容,把网页html节点做内容映射,就完成第二级规则了,这样第二级规则采集到的结果文件中的realpath字段里就是搜索结果的真实网址

举报 使用道具
18#
ym 版主 发表于 2017-9-23 18:12:01 | 只看该作者
Lucky嗨嗨 发表于 2017-9-23 17:24
我应该怎么做规则才会覆盖到全部的结果啊?大神指点!拜托了!

请去分析网页结构,规则里做自定义xpath设置,实现多种网页结构的兼容,参考教程http://www.gooseeker.com/doc/article-269-1.html
举报 使用道具
19#
Lucky嗨嗨 初级会员 发表于 2017-10-11 20:24:01 | 只看该作者
ym 发表于 2017-9-23 18:12
请去分析网页结构,规则里做自定义xpath设置,实现多种网页结构的兼容,参考教程http://www.gooseeker.co ...

可不可以帮我看看我的一个规则啊?名字是:地质信息产品、第二层主题名称是:地质信息产品二级,我的规则中其中“摘要”用的是xpath精确定位,我第一次用,不知道哪里出错了,导致excel表里的700多条摘要都是一样的!另外为什么我的下级爬出来的文本内容并不全啊?

1.png (322.11 KB, 下载次数: 490)

1.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 18:41