怎么爬取百度搜索关键词之后的各结果的网址
举报 使用道具
| 回复

共 18 个关于本帖的回复 最后回复于 2017-10-11 20:24

bowieD 金牌会员 发表于 2017-9-14 09:18:51 | 显示全部楼层
用连续点击动作
1,第一规则中定义输入和点击动作,去输入关键词和点击搜索。
2,第二级规则把搜索出来的结果的网址做内容映射和样例复制,就能抓取百度搜索关键词之后的各结果的网址《连续动作:自动搜索关键词采集信息》
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-9-14 18:40:40 | 显示全部楼层
我想问您一下,我在定义二级规则的时候怎么抓取网址?
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-9-14 18:42:51 | 显示全部楼层

求指教

我就是不明白怎么抓取网页的网址!抓取的网址要么与原网址不一致、要么就没有!
举报 使用道具
Fuller 管理员 发表于 2017-9-14 18:48:07 | 显示全部楼层
百度搜索结果中的网址是百度自己做了编码的,如果你想要原始网址,必须做一个两层抓取,第一层把编了码的网址抓下来,产生第二层线索,抓第二层时,网址会做一次跳转,DS打数机能把跳转前和跳转后的网址都记录下来
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-9-14 21:55:11 | 显示全部楼层
本帖最后由 Lucky嗨嗨 于 2017-9-15 00:12 编辑
Fuller 发表于 2017-9-14 18:48
百度搜索结果中的网址是百度自己做了编码的,如果你想要原始网址,必须做一个两层抓取,第一层把编了码的网 ...

非常感谢你、我试着做一下、遇到具体问题给您发截图可以吗?

我做了一下,发现了问题:您好、我想问下第二层抓取具体怎么设置规则啊?还是抓取网址吗?还是不太明白、另外第一层抓取的时候不能抓取全部搜索结果的网址,比如搜索出是个结果,应该抓到十个网址,但是最后只抓到七个网址、这是为什么啊?
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-9-15 00:04:03 | 显示全部楼层
Fuller 发表于 2017-9-14 18:48
百度搜索结果中的网址是百度自己做了编码的,如果你想要原始网址,必须做一个两层抓取,第一层把编了码的网 ...

第二层的时候应该怎么设置规则?具体怎么做啊?不同明白、而且第一层抓取网址时为什么只能抓取部分结果的网址、比如十个搜索结果只能抓到7个结果的网址
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-9-15 00:11:29 | 显示全部楼层
Fuller 发表于 2017-9-14 18:48
百度搜索结果中的网址是百度自己做了编码的,如果你想要原始网址,必须做一个两层抓取,第一层把编了码的网 ...

您好、我想问下第二层抓取具体怎么设置规则啊?还是抓取网址吗?还是不太明白、另外第一层抓取的时候不能抓取全部搜索结果的网址,比如搜索出是个结果,应该抓到十个网址,但是最后只抓到七个网址、这是为什么啊?
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-9-15 00:11:46 | 显示全部楼层
您好、我想问下第二层抓取具体怎么设置规则啊?还是抓取网址吗?还是不太明白、另外第一层抓取的时候不能抓取全部搜索结果的网址,比如搜索出是个结果,应该抓到十个网址,但是最后只抓到七个网址、这是为什么啊?
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-9-15 00:13:45 | 显示全部楼层
Fuller 发表于 2017-9-14 18:48
百度搜索结果中的网址是百度自己做了编码的,如果你想要原始网址,必须做一个两层抓取,第一层把编了码的网 ...

您好、我想问下第二层抓取具体怎么设置规则啊?还是抓取网址吗?还是不太明白、另外第一层抓取的时候不能抓取全部搜索结果的网址,比如搜索出是个结果,应该抓到十个网址,但是最后只抓到七个网址、这是为什么啊?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 13:46