Web数据采集结果目录结构

DataScraper从Web采集的数据存成XML文件,放在$HOME/DataScraperWorks/<主题名>/ 目录下,也就是说每个主题都有一个专门的目录。由于同一个目录下文件个数受限,所以,当Web数据采集结果文件数量达到一定数字后,在当前主题子目录下再建一层子目录,循环往复。目录结构如下:

 $HOME
   |-- DataScraperWorks
         |-- <主题名 A>
               |-- .meta
                     |-- filecount.txt
               |-- <Web数据采集结果文件 1>

               |-- <Web数据采集结果文件 2>
               |-- ......
               |-- <Web数据采集结果文件 n>
               |-- <moreharvest>
                     |-- .meta
                           |-- filecount.txt
                     |-- <Web数据采集结果文件 m1>
                     |-- <Web数据采集结果文件 m2>

                     |-- ...
                     |-- <Web数据采集结果文件 mn>
                     |-- <moreharvest>
                           |-- ......

说明:

  • $HOME就是登录用户的主目录
  • DataScraperWorks目录是DataScraper自动创建的,名字和位置固定不变
  • <主题名 A>以主题名命名的目录
  • .meta目录用于存储filecount.txt和其它元数据文件
  • filecount.txt是一个文本文件,里面只有一个数字,表示本级目录中存储的结果文件数量,该数字是一个大概值,不能用该数字确定本级目录中结果文件的准确数量。该数字被DataScraper使用,决定是否需要创建下一级结果文件存储目录<moreharvest>
  • <moreharvest>:当采集的Web数据结果文件很多,数量达到某个值时,创建该目录,以后采集的结果文件存放在新建目录下,此类目录嵌套多层,每层目录名相同,该目录名可设置,参见下面的注意事项。


注意:不同的操作系统对路径和文件名长度有不同限制,同样一个目录下能够存储的文件数量也有不同限制,尤其Windows操作系统,路径长度有限,所以需要合理地设定<moreharvest>目录的名字和文件数量,详细参见路径名和文件名长度对网页内容提取软件的影响