调整网页内容提取工具的加载超时时间

网页内容提取工具DataScraper内部有个参数：目标网页加载超时时间，如果目标网页在规定时间内没有下载下来，那么就放弃该网页。以前版本，该参数是固定的，1分钟左右，超过这个时间就放弃。如果用DataScraper提取需要翻页的内容的话(例如，这个网页），而且用于翻页的线索作为inthread线索，如果翻到中间某页超时了就很可惜，不得不从第一页再翻一遍，当然，如果用于翻页的超链接不定义为inthread线索，而是为每个中间页生成并存储一个线索，翻页中断的影响就小很多。但是，在规划网页内容提取任务时，提取列表类网页的目的一般是提取该网页上的超链接，例如，从论坛讨论主题列表中提取超链接以便提取详细的讨论内容，又如规划手机游戏网页内容提取任务等。在这种情形了，翻每一页产生并存储一个代表本页的线索显得多余，如果采用inthread线索类型，就可以节省存储空间。

采用inthread线索进行翻页提取需要适当提高网页加载超时时间，防止中间某页加载时间偶然变长造成本轮提取没有完全翻完。

DataScraper V4.2.0B59以后的版本支持可配置的网页加载超时时间，但是仅局限于周期性网页提取，在周期性网页内容提取调度文件中的step块中增加loadTimeout参数，以秒为单位，可以改变加载超时时间，缺省60秒。

该参数调高主要适用翻页提取超链接的情形，如果滥用该参数，可能造成性能下降，例如，目标网站的访问速度很慢甚至某段时间不可访问，每提取一个网页都等待这么长时间将大大拉低DataScraper的网页提取效率，建议提取单页内容时，不配置该参数从而使用缺省时间。因为单页内容提取即使在某段时间失败了，以后仍然有机会重新提取，例如，使用新版DataScraper的线索激活功能。

GooSeeker

调整网页内容提取工具的加载超时时间

切换语言