增量网页信息抽取方法

连续地周期性地抽取网页信息是网页抓取/数据抽取软件工具包MetaSeekerV4版本的新增特性,适合全自动的采集网站内容,例如,增量采集论坛新帖子或者增量采集在线交易网站上的最新商品。本文讲解怎样配置网页抓取和数据格式化工具DataScraper,命令其网络爬虫持续的周期性的抽取网页信息。为了能够理解本文讲解的内容,需要了解下面的预备知识:

周期性的增量网页信息抽取过程是由周期性网页信息抽取调度文件驱动,启动周期性提取的过程如下:

准备

周期性网页信息抽取调度文件存放在主目录($Home)的目录.datascraper下,该目录需要手工创建,请注意目录名前的"."不能遗漏。



编写调度文件

周期性网页信息抽取调度文件名是crontab.xml,需要存放在$Home/.datascraper/目录下,文件编写方法参考周期性网页信息抽取调度文件的结构



启动DataScraper

如果在调度文件中,周期性网页抽取会话配置成auto类型,DataScraper启动时打DataScraper窗口专门为该会话使用,一个周期性网页抽取会话对应一个DataScraper窗口,在一个独立的线程中运行。另外还有一个不为任何会话服务的DataScraper窗口,这个窗口与其它窗口不同,有完整的主题列表,用来手工启动网页信息抽取和周期性信息抽取会话,该DataScraper线程称为管理DataScraper,反之称为会话DataScraper

操作员可以关闭正在运行的周期性网页抽取会话窗口,如果想手动重新运行之,可以在管理DataScraper的主题列表上,点击鼠标右键菜单排期,选择某个会话,将弹出一个会话DataScraper。另外,如果在调度文件中,某些会话的auto状态设置成false,也需要手工启动会话。



监控运行状况

内嵌浏览器窗口

缺省情况下,会话DataScraper窗口是一个小尺寸窗口,没有显示内嵌的浏览器,如果需要了解DataScraper抓取到哪一页了,可以放大该窗口,浏览器窗口将被显示。

状态面板

无论会话DataScraper窗口还是管理DataScraper,在中部都有一个状态面板,可以看到很多状态信息。

日志窗口

无论会话DataScraper窗口还是管理DataScraper,在下部都有一个日志窗口,可以看到一些日志记录,日志是分级别的,INFO和DEBUG级一般是提示性日志信息,WARN和ERROR级是错误信息,WARN级表示系统自助地将问题解决了,用户可以不必采取措施,ERROR级表示系统无法自行解决问题,需要用户干预,经常发生的是用户定义的信息结构不合适,导致DataScraper无法根据信息提取指令文件准确的提取信息,如果发生这种问题,用户需要重新修改信息结构。

文件日志

周期性长时间自动地执行网页信息提取的工作一般是在无人值守的情况下做的,日志窗口中的老日志可能滚动过去了,用户可以在日志文件中查看是否发生了需要采取措施的事件,日志结构与窗口中的基本一致。文件存放在$Home/.datascraper/目录下,文件名是datascraper.log.txt,该文件可以手工删除,系统会自动创建。