网页文字抓取器DataScraper从V4.0.0版本开始,状态监控手段进一步增多,首先增加了日志文件,其次增加了实时状态显示功能,下面将一一进行讲解。
DataScraper的下栏是一个列表,显示工作日志信息,日志列表有四个字段:
如果某个主题下定义了多个信息结构,网页文字抓取器DataScraper将按照信息结构识别规则找到一个合适的,在日志输出栏中显示匹配过程。最常见的信息是:
其中:
如果这个主题有多个信息结构,出现上述信息并不表示提取失败,但是,如果所有信息结构都失败了,将显示下面的日志信息:
其中,CCC的含义同第一个消息。
如果看到这个消息,表示所有信息结构都不适合这个目标页面。日志中有一个字段线索Id,用户可以使用这个ID该线索指向的网页找出来,并加载到MetaStudio上分析它的信息结构,必要时可以定义一个新的主题名相同的信息结构。
网页文字抓取器DataScraper右下栏状态面板显示网页抓取进度,显示下述信息(第一列暂停和恢复图标在上一节已经介绍过了):
,表示在线。
,表示在线。进行周期性网页文字抓取时,仅在界面日志栏显示日志信息是不够的,因为周期性网页文字抓取一般无人值守运行很长时间,如果日志很多,日志内容很快滚动出窗口范围,所以,网页文字抓取器DataScraper在本地目录$HOME/.datascraper下创建日志文件datascraper.log.txt,记录的内容格式与界面显示日志一致。当datascraper.log.txt文件大小达到1M后,文件名字改成datascraper.log.xxxx.txt,其中xxxx是一个整数,表示产生该日志文件的时间。