什么是定题网络爬虫?

根据网页抓取/数据抽取/信息提取软件工具包MetaSeeker的介绍资料,其实现的网络爬虫是一个定题网络爬虫,也叫聚焦网络爬虫,怎样理解,与普通网络爬虫相比哪个更好?

也叫聚焦网络爬虫

定题网络爬虫,也叫聚焦网络爬虫,这种爬虫只抓取与某个主题相关的页面,抓取下来一个页面后并不抽取所有的文本内容,而是将主题相关的内容提取出来,一般格式化成有结构的数据,同时抽取超链接时只选择与某个主题相关的,概括地说就是爬行的范围是受控的。

正如楼主所说网页抓取/数据抽取/信息提取软件工具包MetaSeeker里面的网络爬虫是一个定题爬虫,定题爬虫和普通网络爬虫没有优劣之分,只是应用场合和目的不同,普通网络爬虫一般是尽可能广和深地爬行网络(当然可以设定深度和广度限制),一般用于普通的综合搜索引擎,这种搜索引擎追求的一个目标就是尽可能多的搜索网络内容。而聚焦网络爬虫一般用于建设垂直搜索、商品比价、商业情报采集、推荐引擎、手机搜索等系统,这些系统要求数据相关性极高,用户搜索时精度极高,就像数据库查询一样精确,所以普通网络爬虫抓取的内容很多是噪音信息,影响这些系统的建设目标,只能使用定题网络爬虫