DataScraper工作流处理器介绍

当前版本可以使用的工作流处理器有下述几个:

名称 使用说明
MigrateWorksBucket 被提取(抓取/抽取)的信息用多个页显示时,DataScraper需要翻页,提取当前页信息的过程中,还需要在关于“翻页”的链接上提取一个线内(in-thread)线索,该线索存放在上下文容器中。DataScraper循环调度所有处理器,该处理器一般放在工作流的第一个处理器位置,它将检查上下文容器,如果存在上次爬行期间产生的inthread线索,DataScraper将爬行该线索,而不是从DataStore服务器上获取新的线索。
FetchSpiderClue 首先尝试从上下文容器中获取inthread线索,如果没有获得,将从DataStore服务器上获取状态是start的新线索。
LoadHtmlPage 加载线索指向的Web页面
FindDataSchema_Plain 利用MetaStudio生成的信息结构识别规则文件(DSD文件)检验目标页面是否可提取(抓取/抽取)。如果不是,当前线索的状态将改成unknownschema,如果是将加载相关的信息提取(页面抓取/抽取)指令文件
ExtractWebNodeData_Simp 利用MetaStudio生成的数据提取指令文件(MAP文件)从目标页面上提取数据,并转换成XML文档,存储在上下文容器中
ValidateExtraction 利用MetaStudio生成的信息结构识别规则文件(DSD文件)检验提取(抓取/抽取)到的信息是否正确,如果不是,当前线索的状态将改成unknownschema
SaveFile_Simp 将信息提取(页面抓取/抽取)结果文件从上下文容器中取出来发送到DataStore服务器上
ExtractSpiderClue_Simp 利用MetaStudio生成的线索提取指令文件(SCE文件)从目标页面上提取(抓取/抽取)线索并发送到DataStore服务器上。如果提取的线索的主题拥有新主题名,则到MetaCamp服务器上申请使用该名,新申请的还没有描述信息结构的主题的状态是“torecognize”
ConfirmSpiderClue_Simp 在DataStore服务器上,将当前线索的状态改成extracted,表示该线索已经被提取(抓取/抽取)了
CleanWorksBucket 清理上下文容器,如果在当前页面上提取到了inthread线索,本处理器将妥善保存该信息,以便在下一轮工作流循环中使用该线索