怎样规划周期性页面数据提取

页面数据提取软件工具包MetaSeeker自V4.0.0版本开始,定题网络爬虫DataScraper实现了多种操作方式的周期性页面数据提取,在无人值守的情况下长时间提取页面数据。

虽然DataScraper的定题网络爬虫提取能力、适应能力、和渗透能力很强,但是作为网络爬虫,并不能达到像谷歌爬虫那样智能,周期性调度策略是使用配置文件定下的,不能动态根据网络状况修改调度策略。所以,需要人工规划提取调度策略,使DataScraper的性能尽可能发挥。因此,在编写周期性数据提取指令文件时,需要考虑以下几个重点:

  • 周期性数据提取会话数量要受限,DataScraper为每个会话启动一个DataScraper窗口,如果在同一台计算机上打开的窗口过多,耗用太多资源,另一方面,这些窗口在不同线程中并发执行,同时从目标网站上提取网页数据,计算机通信资源是个瓶颈,所以,应该控制在10个会话以内
  • 如果为同一个网站定义多个数据提取主题,尽量不要将这些主题放在不同周期性会话中,防止多线程并发时给对方造成突发的流量压力。
  • 有些网站内容变化快,需要较高的数据提取频度,相反,数据提取频度应该降低,所以,将网站内容变化快的放在一起,调度得频繁一些
  • 有些网站访问速度很慢,有些快,应该分别放在不同的周期性提取会话中,防止慢的拖住快的
  • 将所有主题归类放到多个周期性数据提取会话中,在一个会话中,这些主题顺序执行
  • 需要隔一定时间检查一下页面数据提取进度,看看调度是否合理,是否需要重新规划