虽然互联网上有很多大型的图片搜索引擎或者图片汇聚网站,但是,您想建立一个符合自己口味的艺术画廊或者图片汇聚网站,MetaSeeker可以祝您一臂之力。MetaSeeker不仅具有强大的图片提取能力,而且能够确保满足您的口味,只提取特定主题的图片。当然MetaSeeker没有图像识别和文字内容识别的能力,您需要告诉它从哪里提取符合要求的图片,它能做的就是从这个目标网站上准确地提取图片。定义图片提取规则的方法十分简单,可以参见MetaStudio用户手册和MetaSeeker操作实例手册。
注意:MetaSeeker仅仅将图片的地址(URL)提取下来并保存到数据提取结果文件中,实际的图片并没有下载下来,是否需要下载由怎样集成提取结果决定。
信息提取(网页抓取/抽取)结果的集成方式可以有下面几种:
- 命令MetaSeeker将目标网站上的图片及其页面排版格式都提取下来,也就是将HTML IMG元素和其他相关的元素和属性都提取下来,上载到自己的网站上时直接将这个HTML文档片段放到适当位置即可,在自己的网站上不需要存储实际的图片,即时从原网站下载到用户浏览器上;
- 命令MetaSeeker只提取目标网站上的图片的地址(URL),即提取HTML IMG元素的src属性值。集成到自己的网站上时使用这个属性值,而不实际存储图片文件,也是即时从原网站下载到用户浏览器上;
- 命令MetaSeeker只提取目标网站上的图片的地址(URL),即提取HTML IMG元素的src属性值,然后使用一个图片下载程序从提取到的地址上下载实际的图片,并将其上载到自己的网站上。

Figure 1(
放大)
上图各组成部分解释如下:
- 图片源:含有符合口味的图片的网站
- MetaSeeker工具包:这部分用一个云图表示,因为MetaSeeker工具包中的多个工具组成一个数据提取网络。MetaSeeker工具包将图片地址(URL)一个一个提取下来,存储到提取结果XML文件中。
- 图片集成模块:本模块不是MetaSeeker工具包中的工具,而是第三方合作厂商提供的,如有需要可联系我们,我们将一些成功案例的模块推荐给用户。该模块读取MetaSeeker数据库中的数据提取结果文件,使用某个适配逻辑将图片集成到在线艺术画廊中,对应上述三种集成方式,其适配逻辑有所不同。
- 在线画廊:用户建立的收集某个主题的图片的网站