快捷导航
怎么爬取百度搜索关键词之后的各结果打开后的内容、拜托了
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-9-15 09:18

bowieD 中级会员 发表于 2017-9-14 09:22:59 | 显示全部楼层
用连续点击动作和层级抓取
1,第一规则中定义输入和点击动作,去输入关键词和点击搜索。参考《连续动作》
2,第二级规则把搜索出来的结果的网址做内容映射和样例复制,就能抓取百度搜索关键词之后的各结果的网址,并把网址作为下级线索,指向第三级
3,第三级规则爬取百度搜索关键词之后的各结果打开后的内容,参考《层级抓取》
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-9-14 17:42:45 | 显示全部楼层
bowieD 发表于 2017-9-14 09:22
用连续点击动作和层级抓取
1,第一规则中定义输入和点击动作,去输入关键词和点击搜索。参考《连续动作》
2 ...

您说的这个我之前就是按着这个思路去做的、我说的问题是在这个过程中遇到的问题……而且我发现这个方法只适用于京东、淘宝等二级网站打开后是相同结构的网页,对于百度搜索关键来说,每一个搜索出来的结果打开之后网页的结构是不同的,所以没有办法抓取,请问您有什么好的办法吗?

举报 使用道具
Fuller 管理员 发表于 2017-9-14 18:21:05 | 显示全部楼层
Lucky嗨嗨 发表于 2017-9-14 17:42
您说的这个我之前就是按着这个思路去做的、我说的问题是在这个过程中遇到的问题……而且我发现这个方法只 ...

百度搜到的网页结构各不一样,只能采集整个body中的内容,或者整个html片段,或者只要文本内容。具体可以参看《采集html源码
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-9-14 21:56:06 | 显示全部楼层
非常感谢、我试着做做
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-9-14 23:46:50 | 显示全部楼层
Fuller 发表于 2017-9-14 18:21
百度搜到的网页结构各不一样,只能采集整个body中的内容,或者整个html片段,或者只要文本内容。具体可以 ...

我试着做了、可以采集HTML码,但是我还是想只采集文本内容、是网页的文本内容?有什么办法吗
举报 使用道具
bowieD 中级会员 发表于 2017-9-15 09:18:35 | 显示全部楼层
本帖最后由 bowieD 于 2017-9-15 09:25 编辑

1,想要采集哪一部分的内容,就把那一部分的区块节点映射给抓取内容。

2,要抓整块的话,需要在整理箱上为抓取内容设置 “高级设置”,里面有“抓取特定内容”->“文本内容”。


3,想要网页的整个html源码,可以直接对html节点做映射,然后高级设置里选择网页片段,最后保存规则《怎样抓取网页上一整块内容》


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 从淘宝的买家评论中,能挖掘出什么有用的信
  • 连续动作:如何把抓到的信息与动作步骤对应
  • 淘宝开店运营十大攻略
  • 深圳市咨询投诉分析
  • 去资源库下载规则,轻松抓数据

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-9-24 09:29