本帖最后由 verygood 于 2017-4-5 12:34 编辑

是抓取百度搜索“辱母杀人案”的搜索结果

结果文件中什么都没有:


举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-4-5 17:58

沙发
xandy 论坛元老 发表于 2017-4-5 14:23:22 | 只看该作者
你的样本网址是:
  1. https://www.baidu.com/
复制代码
这个网址并不能抓到你要的结果,样本网址要以你要抓取内容的网页网址为准的,比如下面这种:
  1. https://www.baidu.com/s?wd=%E8%BE%B1%E6%AF%8D%E6%9D%80%E4%BA%BA%E6%A1%88&rsv_spt=1&rsv_iqid=0x82cb10aa0000cda4&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=7&rsv_sug1=4&rsv_sug7=100
复制代码


举报 使用道具
板凳
verygood 初级会员 发表于 2017-4-5 15:09:23 | 只看该作者
xandy 发表于 2017-4-5 14:23
你的样本网址是:
这个网址并不能抓到你要的结果,样本网址要以你要抓取内容的网页网址为准的,比如下面这 ...

谢谢,但是这个网址太长了,被自动截断了。有什么其它方法可以爬取百度搜索结果吗?
举报 使用道具
地板
Fuller 管理员 发表于 2017-4-5 16:19:07 | 只看该作者
verygood 发表于 2017-4-5 15:09
谢谢,但是这个网址太长了,被自动截断了。有什么其它方法可以爬取百度搜索结果吗?
...

做规则的时候,提示网址截断并不影响爬虫的工作,另外,百度新闻抓取有现成的爬虫,这里是新闻类抓取,包括百度新闻。注意,在百度搜索结果中,网页搜索和新闻搜索是两回事,要用不同的规则。

你是要搜索网页?还是新闻?
举报 使用道具
5#
verygood 初级会员 发表于 2017-4-5 16:24:29 | 只看该作者
Fuller 发表于 2017-4-5 16:19
做规则的时候,提示网址截断并不影响爬虫的工作,另外,百度新闻抓取有现成的爬虫,这里是新闻类抓取,包 ...

我要搜索网页
举报 使用道具
6#
Fuller 管理员 发表于 2017-4-5 16:24:53 | 只看该作者
你的样本网址是什么?直接加载你的规则是失败的,因为只显示了首页。
举报 使用道具
7#
verygood 初级会员 发表于 2017-4-5 16:28:02 | 只看该作者
Fuller 发表于 2017-4-5 16:24
你的样本网址是什么?直接加载你的规则是失败的,因为只显示了首页。

https://www.baidu.com/s?ie=utf-8 ... pe%3D1&tfflag=1

举报 使用道具
8#
Fuller 管理员 发表于 2017-4-5 16:30:39 | 只看该作者


百度网页搜索的规则很难做,尤其是第一个页,网页上有多种结构的结果,比如,有图和没有图的,有相关新闻的,还有一些更加复杂的块。

尽量用上定位标志映射,一般来说,你要抓取的这些内容都有专门的@class值的。定位标志映射可以大大提高规则的适应性。不管怎样做,百度网页搜索的规则很不好做,要做很多自定义xpath
举报 使用道具
9#
verygood 初级会员 发表于 2017-4-5 16:41:32 | 只看该作者
Fuller 发表于 2017-4-5 16:30
百度网页搜索的规则很难做,尤其是第一个页,网页上有多种结构的结果,比如,有图和没有图的,有相关新闻 ...

上面那个样本网址搜索出来的结果的结构是一样的。我不需要图片,只需要标题、时间、摘要、网址,如果可能进一步挖快照的内容。
我在探索用你们的工具如何爬数据,然后进行舆情分析,如果可以做,在讲课时可推广一下你们的工具

举报 使用道具
10#
Fuller 管理员 发表于 2017-4-5 17:06:21 | 只看该作者
verygood 发表于 2017-4-5 16:41
上面那个样本网址搜索出来的结果的结构是一样的。我不需要图片,只需要标题、时间、摘要、网址,如果可能 ...

你下载这个现成的规则吧《百度网页搜索结果抓取规则》,刚才我测试过,规则是有效的。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-12 08:41