网络信息抓取工具DataScraper的抓取结果文件是XML文件,整理箱是抓取结果文件的主要内容,除此之外,还有一些环境变量信息。要改变整理箱的结构需要操作网络信息抓取规则定义工具MetaStudio在Bucket Editor工作台上进行,有些环境变量信息可以通过修改配置文件进行选择。下面是一个抓取结果文件例子:
<?xml version="1.0" encoding="UTF-8" ?>
<extraction>
<clueid>348908</clueid>
<fullpath>
<![CDATA[ http://www.newegg.com.cn/Category/536.htm
]]>
</fullpath>
<realpath>
<![CDATA[ http://www.newegg.com.cn/Category/536.htm
]]>
</realpath>
<theme>demo_product_list_newegg</theme>
<middle>default</middle>
<createdate>2009-12-13 15:08:10</createdate>
<list>
<item>
<proudct>
<item>
<name>ASUS 华硕 F83E667Vf-SL 2G 320G Win7 14寸LED宽屏笔记本电脑 </name>
<features>超低价格,懂的入!T6670 支持VT技术,DDR3内存,1G超豪华独显!</features>
<delete_price>¥5999.00</delete_price>
<price>¥5099.00</price>
</item>
<item>
<name>ASUS 华硕 EeePC 900HA 黑色 Linux 8.9寸宽屏笔记本电脑 </name>
<features>买套餐加1元就送水星无线路由器!轻薄小巧,网络生活利器!</features>
<delete_price>¥2099.00</delete_price>
<price>¥1899.00</price>
</item>
......
</proudct>
</item>
</list>
</extraction>
其中:list部分是整理箱内容,其前的字段是环境变量信息,有:
上述变量中,realpath和createdate都是可选的,在系统菜单配置->结果文件下有两个菜单项:提取日期和真实地址,都是查检(checkbox)菜单,点击后选择或者不选择。此配置信息存储在配置文件中,DataScraper全局有效,而跟特定主题无关。