DataScraper从Web采集的数据存成XML文件,放在$HOME/DataScraperWorks/<主题名>/ 目录下,也就是说每个主题都有一个专门的目录。由于同一个目录下文件个数受限,所以,当Web数据采集结果文件数量达到一定数字后,在当前主题子目录下再建一层子目录,循环往复。目录结构如下:
$HOME
|-- DataScraperWorks
|-- <主题名 A>
|-- .meta
|-- filecount.txt
|-- <Web数据采集结果文件 1>
|-- <Web数据采集结果文件 2>
|-- ......
|-- <Web数据采集结果文件 n>
|-- <moreharvest>
|-- .meta
|-- filecount.txt
|-- <Web数据采集结果文件 m1>
|-- <Web数据采集结果文件 m2>
|-- ...
|-- <Web数据采集结果文件 mn>
|-- <moreharvest>
|-- ......
说明:
- $HOME就是登录用户的主目录
- DataScraperWorks目录是DataScraper自动创建的,名字和位置固定不变
- <主题名 A>以主题名命名的目录
- .meta目录用于存储filecount.txt和其它元数据文件
- filecount.txt是一个文本文件,里面只有一个数字,表示本级目录中存储的结果文件数量,该数字是一个大概值,不能用该数字确定本级目录中结果文件的准确数量。该数字被DataScraper使用,决定是否需要创建下一级结果文件存储目录<moreharvest>。
- <moreharvest>:当采集的Web数据结果文件很多,数量达到某个值时,创建该目录,以后采集的结果文件存放在新建目录下,此类目录嵌套多层,每层目录名相同,该目录名可设置,参见下面的注意事项。
注意:不同的操作系统对路径和文件名长度有不同限制,同样一个目录下能够存储的文件数量也有不同限制,尤其Windows操作系统,路径长度有限,所以需要合理地设定<moreharvest>目录的名字和文件数量,详细参见路径名和文件名长度对网页内容提取软件的影响