调整网页内容提取工具的加载超时时间

网页内容提取工具DataScraper内部有个参数:目标网页加载超时时间,如果目标网页在规定时间内没有下载下来,那么就放弃该网页。以前版本,该参数是固定的,1分钟左右,超过这个时间就放弃。如果用DataScraper提取需要翻页的内容的话(例如,这个网页),而且用于翻页的线索作为inthread线索,如果翻到中间某页超时了就很可惜,不得不从第一页再翻一遍,当然,如果用于翻页的超链接不定义为inthread线索,而是为每个中间页生成并存储一个线索,翻页中断的影响就小很多。但是,在规划网页内容提取任务时,提取列表类网页的目的一般是提取该网页上的超链接,例如,从论坛讨论主题列表中提取超链接以便提取详细的讨论内容,又如规划手机游戏网页内容提取任务等。在这种情形了,翻每一页产生并存储一个代表本页的线索显得多余,如果采用inthread线索类型,就可以节省存储空间。

采用inthread线索进行翻页提取需要适当提高网页加载超时时间,防止中间某页加载时间偶然变长造成本轮提取没有完全翻完。

DataScraper V4.2.0B59以后的版本支持可配置的网页加载超时时间,但是仅局限于周期性网页提取,在周期性网页内容提取调度文件中的step块中增加loadTimeout参数,以秒为单位,可以改变加载超时时间,缺省60秒。

该参数调高主要适用翻页提取超链接的情形,如果滥用该参数,可能造成性能下降,例如,目标网站的访问速度很慢甚至某段时间不可访问,每提取一个网页都等待这么长时间将大大拉低DataScraper的网页提取效率,建议提取单页内容时,不配置该参数从而使用缺省时间。因为单页内容提取即使在某段时间失败了,以后仍然有机会重新提取,例如,使用新版DataScraper的线索激活功能。