网页数据抓取软件要求的软件环境

网页数据抓取软件工具包MetaSeeker的最新版本是V4.10.0,此版本正处于一个过渡期:向高性能高可用性演进的时期。其中,网页数据抓取和格式化软件 DataScraper V4.10.0改变最大,系统架构和编程都进行了彻底改变,但是,通信接口不变,以前定义的网页数据抓取规则都可沿用。因此,沿用了四个版本时期的版本命名规则也相应作了调整,敬请用户下载时分清版本。

虽然语义结构描述和网页数据抓取规则生成软件MetaStudio和网页数据抓取和格式化软件DataScraper都作为Firefox的扩展(Firefox extensions)发行的,但两者对软件环境要求是不一样的,一个最大的区别是DataScraper V4.10.0(普通版)或者V4.10.0以前的版本能够跨平台部署,同一个DataScraper软件包可以安装在不同操作系统和不同版本的Firefox上,而MetaStudio针对不同的系统软件环境有不同的发行包,需要区别对待。

经过V4.10.0这个过渡期后,DataScraper和MetaStudio软件包的安装规则统一了,都跟操作系统和Firefox版本密切相关。下面将V4.10.0和以前版本分别进行讲解。



MetaSeeker V4.10.0

DataScraper V4.10.0(高性能版)和MetaStudio V4.10.0一样,针对不同的操作系统(Linux和Windows)和不同版本的Firefox都有专门的软件包,安装时一定要选择匹配的软件包,由于Firefox版本更新太快,MetaSeeker不可能为每个Firefox小版本都发布一个专门的版本,只针对其大版本发布配套软件,例如Firefox 3.5.7和3.5.8,7和8都是小版本号,3.5是大版本号,所幸Mozilla API在Firefox大版本内保持不变,所以,MetaSeeker 仅针对Firefox大版本进行发布一般不会出现配套问题,如果发现运行不正常,可以,联系我们以便改进。

注意:此处所指Firefox及其版本是指在Mozilla Firefox官方网站上发布的版本,其它人和组织自行编译和 发布的版本可能无法使用,原因是不同C++编译器和编译选项将影响XPCOM组件的动态加载。



MetaStudio

MetaStudio和DataScraper的版本命名规则改变了。MetaStudio的命名规则如下:

metastudio_os_Firefox版本_language.xpi

例如:metastudio_Win_FF3.6_zh.xpi

其中:

  • os:操作系统的简称,例如:Win代表Win32操作系统;Linux代表Linux操作系统
  • Firefox版本:代表Mozilla Firefox版本,例如FF3.6代表3.6.x版本,FF3.5代表3.5.x版本
  • language:代表界面语言,例如en代表English,zh代表中文

当前,提供下面的软件和版本配套关系:

软件包操作系统及版本Firefox版本语言
metastudio_Win_FF3.6_en.xpiWindows 7/XP/Vista/NTFirefox 3.6.x英文
metastudio_Win_FF3.6_zh.xpiWindows 7/XP/Vista/NTFirefox 3.6.x中文
metastudio_Win_FF3.5_en.xpiWindows 7/XP/Vista/NTFirefox 3.5.x英文
metastudio_Win_FF3.5_zh.xpiWindows 7/XP/Vista/NTFirefox 3.5.x中文
metastudio_Linux_FF3.6_en.xpiLinuxFirefox 3.6.x英文
metastudio_Linux_FF3.6_zh.xpiLinuxFirefox 3.6.x中文
metastudio_Linux_FF3.5_en.xpiLinuxFirefox 3.5.x英文
metastudio_Linux_FF3.5_zh.xpiLinuxFirefox 3.5.x中文


DataScraper

DataScraper(高性能版)的命名规则如下:

datascraper_os_Firefox版本_language.xpi

例如:datascraper_Win_FF3.6_zh.xpi

其中:

  • os:操作系统的简称,例如:Win代表Win32操作系统;Linux代表Linux操作系统
  • Firefox版本:代表Mozilla Firefox版本,例如FF3.6代表3.6.x版本,FF3.5代表3.5.x版本
  • language:代表界面语言,例如en代表English,zh代表中文

当前,提供下面的软件和版本配套关系:

软件包操作系统及版本Firefox版本语言
datascraper_Win_FF3.6_en.xpiWindows 7/XP/Vista/NTFirefox 3.6.x英文
datascraper_Win_FF3.6_zh.xpiWindows 7/XP/Vista/NTFirefox 3.6.x中文
datascraper_Win_FF3.5_en.xpiWindows 7/XP/Vista/NTFirefox 3.5.x英文
datascraper_Win_FF3.5_zh.xpiWindows 7/XP/Vista/NTFirefox 3.5.x中文
datascraper_Linux_FF3.6_en.xpiLinuxFirefox 3.6.x英文
datascraper_Linux_FF3.6_zh.xpiLinuxFirefox 3.6.x中文
datascraper_Linux_FF3.5_en.xpiLinuxFirefox 3.5.x英文
datascraper_Linux_FF3.5_zh.xpiLinuxFirefox 3.5.x中文


DataScraper(普通版)的命名规则如下:

datascraper_language.xpi

例如:datascraper_zh.xpi

其中:

  • language:代表界面语言,例如en代表English,zh代表中文

同一个软件包可以在不同操作系统和不同版本的Firefox上部署。普通版只是过渡期的临时版本,性能和可靠性都远低于高性能版,请尽量选择安装高性能版。



MetaSeeker 以前版本


MetaStudio

MetaStudio V4.x核心代码使用C++编写成XPCOM组件(可以使用Firefox的组件查看器查看,命名前缀是@gooseeker.com),针对不同操作系统平台,发布了不同的MetaStudio程序包,在软件下载服务器上使用不同名字,用户需要根据自己的软件环境选择安装,MetaStudio软件包的命名规则如下(注意:下面的描述有些侧重于技术角度,如果不想深入了解,可以直接跳到版本配套表即可):

metastudio_os_compiler_gecko version_language.xpi

其中:

  • os:操作系统的简称,例如:Win代表Win32操作系统;Linux代表Linux操作系统
  • compiler:C++编译器的简称,例如:msvc代表Microsoft Visual C++;gcc代表GNU C++编译器
  • gecko version:代表Mozilla Gecko版本,例如gecko1.8代表1.8版本,gecko1.9代表1.9版本
  • language:代表界面语言,例如en代表English,zh代表中文

当前,只提供下面的软件和版本配套关系:

软件包操作系统及版本Firefox版本语言
metastudio_Win_msvc_gecko1.9_en.xpiWindows XP/Vista/NTFirefox 3.0.x英文
metastudio_Win_msvc_gecko1.9_zh.xpiWindows XP/Vista/NTFirefox 3.0.x中文
metastudio_Linux_gcc_gecko1.8_en.xpiLinuxFirefox 2.x英文
metastudio_Linux_gcc_gecko1.8_zh.xpiLinuxFirefox 2.x中文

注意:此处所指Firefox及其版本是指在Mozilla Firefox官方网站上发布的版本,其它人和组织自行编译和 发布的版本可能无法使用,原因是不同C++编译器和编译选项将影响XPCOM组件的动态加载。



DataScraper

DataScraper需要Firefox 1.8~3.0.x之间的版本(更高版本支持情况未测试,低于1.8的版本不支持),可以跨操作系统部署。DataScraper软件包的命名规则如下:

datascraper_language.xpi

其中:

  • language:代表界面语言,例如en代表English,zh代表中文