网页文字抓取器DataScraper的监控方法

网页文字抓取器DataScraper从V4.0.0版本开始,状态监控手段进一步增多,首先增加了日志文件,其次增加了实时状态显示功能,下面将一一进行讲解。

网页文字抓取器界面显示日志

DataScraper的下栏是一个列表,显示工作日志信息,日志列表有四个字段:

  • 时间:日志产生时间
  • 级别:日志消息分成四级,用四个数字表示
    1. 1:调试消息
    2. 2:提示消息
    3. 3:警告消息
    4. 4:错误消息
  • 线索Id:网页文字抓取线索的id
  • 处理器名称:上报日志的工作流处理器的名字
  • 消息:具体的日志内容

信息结构识别过程日志

如果某个主题下定义了多个信息结构,网页文字抓取器DataScraper将按照信息结构识别规则找到一个合适的,在日志输出栏中显示匹配过程。最常见的信息是:

The AAAth validating rule in BBB didn't pass in CCCst inthread cycle

其中:

如果这个主题有多个信息结构,出现上述信息并不表示提取失败,但是,如果所有信息结构都失败了,将显示下面的日志信息:

Suitable schema file(dsd) cannot be found for this SpiderClue in CCCst inthread cycle

其中,CCC的含义同第一个消息。

如果看到这个消息,表示所有信息结构都不适合这个目标页面。日志中有一个字段线索Id,用户可以使用这个ID该线索指向的网页找出来,并加载到MetaStudio上分析它的信息结构,必要时可以定义一个新的主题名相同的信息结构。



网页文字抓取进度

网页文字抓取器DataScraper右下栏状态面板显示网页抓取进度,显示下述信息(第一列暂停和恢复图标在上一节已经介绍过了):

  • 主题名称:DataScraper的定题爬虫正在为哪个主题抓取网页文字
  • 开始时间:当前抓取批次的开始时间
  • 总线索数:当前抓取批次的总线索数
  • 剩余线索:剩下的线索数,减少到0表示本批次完成
  • 工作流引擎实时状态:上下两行显示,如果正在批量抓取网页,这两行文字频繁闪动,表示工作流引擎运行到哪了,这些文字具有特定的含义,用户不必深究,如果遇到异常情况,可以联系我们并将屏幕截图发送给我们,这两行信息主要帮助开发人员确定出错原因。
  • MetaCamp服务器状态:当前连线的MetaCamp服务器的地址和状态,如果右边的图标是绿色的,表示在线。
  • DataStore 服务器状态:当前连线的DataStore服务器的地址和状态,如果右边的图标是绿色的,表示在线。


网页文字抓取日志文件

进行周期性网页文字抓取时,仅在界面日志栏显示日志信息是不够的,因为周期性网页文字抓取一般无人值守运行很长时间,如果日志很多,日志内容很快滚动出窗口范围,所以,网页文字抓取器DataScraper在本地目录$HOME/.datascraper下创建日志文件datascraper.log.txt,记录的内容格式与界面显示日志一致。当datascraper.log.txt文件大小达到1M后,文件名字改成datascraper.log.xxxx.txt,其中xxxx是一个整数,表示产生该日志文件的时间。