怎样规划周期性页面数据提取

页面数据提取软件工具包MetaSeeker自V4.0.0版本开始，定题网络爬虫DataScraper实现了多种操作方式的周期性页面数据提取，在无人值守的情况下长时间提取页面数据。

虽然DataScraper的定题网络爬虫提取能力、适应能力、和渗透能力很强，但是作为网络爬虫，并不能达到像谷歌爬虫那样智能，周期性调度策略是使用配置文件定下的，不能动态根据网络状况修改调度策略。所以，需要人工规划提取调度策略，使DataScraper的性能尽可能发挥。因此，在编写周期性数据提取指令文件时，需要考虑以下几个重点：

周期性数据提取会话数量要受限，DataScraper为每个会话启动一个DataScraper窗口，如果在同一台计算机上打开的窗口过多，耗用太多资源，另一方面，这些窗口在不同线程中并发执行，同时从目标网站上提取网页数据，计算机通信资源是个瓶颈，所以，应该控制在10个会话以内
如果为同一个网站定义多个数据提取主题，尽量不要将这些主题放在不同周期性会话中，防止多线程并发时给对方造成突发的流量压力。
有些网站内容变化快，需要较高的数据提取频度，相反，数据提取频度应该降低，所以，将网站内容变化快的放在一起，调度得频繁一些
有些网站访问速度很慢，有些快，应该分别放在不同的周期性提取会话中，防止慢的拖住快的
将所有主题归类放到多个周期性数据提取会话中，在一个会话中，这些主题顺序执行
需要隔一定时间检查一下页面数据提取进度，看看调度是否合理，是否需要重新规划

GooSeeker

怎样规划周期性页面数据提取

切换语言