路径名和文件名长度对网页内容提取软件的影响

网页内容提取软件MetaSeeker将提取结果文件(XML文件)存储在本地目录DataScraperWorks下,主题名组成下一级子目录,在此子目录下存储网页内容提取结果文件,由于操作系统对一个目录下存储多少文件有限制,所以,在当提取结果文件很多时,会再建立一层子目录,名字是moreharvest,如果moreharvest子目录下文件又变得很多了,会再向下建立一层名字同样为moreharvest的子目录,缺省情况下,每级子目录中存放2000个提取结果文件。

Linux和Windows操作系统对文件名和路径名的长度有不同的要求,尤其在Windows操作系统上,路径名的长度在一般情况下不能超过266,而Linux操作系统要宽松得多,因此,使用上述目录结构和目录名,实际上存储不了多少级moreharvest子目录。从V4.2.2B57版本开始,DataScraper菜单配置->结果目录可以用来修改提取结果目录参数,可以将每一级目录下的文件数量增大(例如,10000),同时取一个长度很短的子目录名字,例如,“m”,而不是长度很长的“moreharvest”。

上述设置仅仅缓解了路径名的长度限制问题,要根本上解决这个问题,需要及时将网页内容提取结果文件转移走,例如,集成到垂直搜索系统中或者录入商业智能系统的数据库中。

Comments

提取结果目录结构说明