怎样选择网络信息抓取结果内容可选项

网络信息抓取工具DataScraper的抓取结果文件是XML文件,整理箱是抓取结果文件的主要内容,除此之外,还有一些环境变量信息。要改变整理箱的结构需要操作网络信息抓取规则定义工具MetaStudio在Bucket Editor工作台上进行,有些环境变量信息可以通过修改配置文件进行选择。下面是一个抓取结果文件例子:

 <?xml version="1.0" encoding="UTF-8" ?> 
 <extraction>
   <clueid>348908</clueid> 
   <fullpath>
       <![CDATA[ http://www.newegg.com.cn/Category/536.htm
       ]]> 
   </fullpath>
   <realpath>
       <![CDATA[ http://www.newegg.com.cn/Category/536.htm
       ]]> 
   </realpath> 
   <theme>demo_product_list_newegg</theme> 
   <middle>default</middle> 
   <createdate>2009-12-13 15:08:10</createdate>

   
   <list>
     <item>
       <proudct>
         <item>
           <name>ASUS 华硕 F83E667Vf-SL 2G 320G Win7 14寸LED宽屏笔记本电脑 </name> 
           <features>超低价格,懂的入!T6670 支持VT技术,DDR3内存,1G超豪华独显!</features> 
           <delete_price>¥5999.00</delete_price> 
           <price>¥5099.00</price> 
         </item>

         <item>
           <name>ASUS 华硕 EeePC 900HA 黑色 Linux 8.9寸宽屏笔记本电脑 </name> 
           <features>买套餐加1元就送水星无线路由器!轻薄小巧,网络生活利器!</features> 
           <delete_price>¥2099.00</delete_price> 
           <price>¥1899.00</price> 
         </item>

         ......
       </proudct>
     </item>
   </list>
 </extraction>

其中:list部分是整理箱内容,其前的字段是环境变量信息,有:

  • clueid:信息抓取线索,这是MetaSeeker内部标记一个超链接指向的网页的方法
  • fullpath:原网页地址,也就是从某个超链接中抓取的URL地址,当使用这个地址加载网页时,网站可能将浏览器浏览请求转到另一个地址,在信息抓取结果文件中,该地址既可能是编码后的地址,也可能是没有编码的。
  • realpath:(可选项)实际地址:如果发生网页转接,该字段记录实际转接到的地址,而且是编码后的地址
  • theme:主题名
  • middle:辅名
  • createdate:(可选项)文件产生时间


上述变量中,realpath和createdate都是可选的,在系统菜单配置->结果文件下有两个菜单项:提取日期真实地址,都是查检(checkbox)菜单,点击后选择或者不选择。此配置信息存储在配置文件中,DataScraper全局有效,而跟特定主题无关。