案例:如何规划网站数据采集

网站数据采集软件工具包MetaSeeker的用户手册讲解了工具的使用方法,用户仍然可能觉得无从下手,实际上,很多用户即使掌握了网站数据采集规则定义工具MetaStudio和网络爬虫工具DataScraper的使用方法,在采集网站数据实践中仍然会走弯路。因此,我们准备撰写一系列文章,由易到难,通过实践案例指导用户有效地采集网站数据,期间还会穿插发布一些视频演示材料。

最简单的应用场景是将网站上同类的内容批量地采集下来,例如,将某个论坛板块的所有帖子采集下来,或者将ebay上的某类电子产品全部采集下来,这些目标网站数据就像一个表格,我们只需要将其中的一条条记录采集下来即可。

然而,并不总是这么简单,例如,某个论坛网站上有很多板块,例如,数据库板块、Java编程板块等等,要将所有板块中的论坛帖子分别采集下来,这实际上变成了两个层次,第一个层次是板块,第二个层次是特定板块中的所有的帖子,实际上,这个例子还有第三个层次,在帖子列表中点击某个帖子会进入到一个详细的由主题帖和跟贴组成的会话页面。

每个网站都有很多层次,在这种情况下,用户操作MetaSeeker采集网站数据时首先要进行规划,要制定一个路线图,告诉MetaSeeker中的定题网络爬虫怎样爬行网站,定题网络爬虫也叫聚焦网络爬虫,同综合搜索引擎的爬虫(例如,谷歌爬虫)有很大不同,定题爬虫的爬行范围是确定的,由MetaSeeker用户事先规定和约束。网络爬虫就像蜘蛛,利用网页上的超链接爬行网络,超链接将页面织成了一张网(WWW,Web),普通网络爬虫爬行这张网时有很大的自由度,而定题网络爬虫的爬行范围是受控的,由用户决定采集网站上哪些层次的网页上的什么数据。所以,规划网站数据采集的过程就是给定题网络爬虫规定爬行路线的过程。网站上的层次是由网站设计者设计和实现的,规定定题网络爬虫爬行范围可以看作是网站设计的逆向工程,所以,在采集网站数据前要正确理解目标网站的结构设计和内容归类管理。

谨记:网站数据采集规划就是网站设计的逆向工程

下面几篇文章以采集一个手机游戏和软件网站(http://www.cn3gw.com)上的数据为例,由浅到深讲解规划和采集过程。