网页信息提取过程由网页抓取和数据内容格式化工具DataScraper执行,在DataScraper内部,使用工作流引擎调度该过程,在网页信息提取过程运行之初,需要获得一个信息提取线索,指示抽取哪个网页上的内容,一轮网页信息提取过程执行完后,该线索的状态置为extracted或者fetched,表示已经完成了网页抓取和数据抽取。多轮按照特定周期重复地提取同一个网页上的内容,称为周期性网页信息提取。
DataScraper支持由客户端调度的和由服务器调度的周期性网页信息提取,首先从周期性网页抓取调度文件中获得周期性调度参数,启动多个DataScraper线程,每个对应一个周期性网页抓取调度会话,按照调度参数持续运转。应用场景略举几例