技术内幕

中信信用卡网络危机信息监测方案图

中信信用卡网络危机信息监测方案图

中信信用卡网络危机信息监测系统规格说明书

本文总结了中信信用卡网络危机信息监测系统的功能规格,读者可以在网站http://www.sos360.com上体验该网络危机信息监测系统

Web数据采集结果目录结构

DataScraper从Web采集的数据存成XML文件,放在$HOME/DataScraperWorks/<主题名>/ 目录下,也就是说每个主题都有一个专门的目录。由于同一个目录下文件个数受限,所以,当Web数据采集结果文件数量达到一定数字后,在当前主题子目录下再建一层子目录,循环往复。目录结构如下:

周期性网页抓取调度文件

新版本的变化

请注意:GooSeeker网络爬虫软件从V5开始进行了大规模改版,这个文档的内容主要针对老版本,新版本用户仍然可以参考。

调度文件的参数含义没有变化,只是请注意词汇的变化,罗列如下:

网络数据采集结果文件格式

DataScraper从网络上采集的数据存成XML文件,放在$HOME/DataScraperWorks/<主题名>/ 目录下,目录结构参见网络数据采集结果文件目录。下面以主题demo_iframe的采集结果文件为例说明文件结构。


索引指令文件

本页详细讲解索引指令文件的结构

信息提取工作流指令文件

信息提取工作流指令文件用来驱动DataScraper的工作流引擎,该文件记录了为完成某个主题的Web信息提取任务所有需要的工作流处理器和执行顺序。该文件是一个XML文件,文件名后缀是.profile.xml。下面是一个例子:

信息结构识别规则文件

信息结构识别规则文件,也称为DSD文件,用于检验目标页面是否符合本主题下某个信息结构。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中,文件名后缀是.dsd.xml。文件结构解释如下:

线索提取指令文件

线索提取指令文件也称为SCE文件,用于从目标页面中提取线索。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中,文件名后缀是.sce.xml。文件结构解释如下:

数据结构指令文件

数据结构指令文件,也称为GEM文件,该文件是对信息提取(网页抓取/抽取)结果的数据结构的描述。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中,文件名后缀是.gem.xml。文件结构解释如下:

Syndicate content