我购买的旗舰版,本地编辑crontab.xml中一个线程如下
<thread name="tyc"> <!--注释:自己给thread(DS窗口)起个名字,一个thread里只有一个parameter,可有多个step-->
<parameter>
<type>client</type>
<auto>true</auto>
<start>1</start> <!--注释:启动DS窗口的延迟时间,是一个数字,以秒为单位,为了有效利用CPU能力,多个DS窗口的延迟时间应该不同,防止挤在一起造成拥塞。-->
<period>10</period> <!--注释:period为调度周期,单位为秒, 如果要每天都采集一遍的话,就要设为86400(24X60X60)-->
<waitOnload>false</waitOnload>
<minIdle>2</minIdle>
<maxIdle>10</maxIdle>
</parameter>
<step name="crawl"> <!--注释:采集第一个规则数据的step-->
<theme>tyc_search_result_final_gx</theme>
<loadTimeout>10000</loadTimeout>
<lazyCycle>3</lazyCycle>
<updateClue>true</updateClue>
<dupRatio>100</dupRatio> <!--下级线索重复容忍度,用于控制新增数据采集,0表示遇到重复的下级线索就中断采集,100表示从头到尾采一遍 -->
<timerTriggered>false</timerTriggered>
<depth>-1</depth> <!--注释:控制翻页次数,-1表示不限制翻页 -->
<width>1</width> <!--注释:控制一轮采集多少条线索网址 -->
<scrollWindowRatio>2</scrollWindowRatio> <!--滚屏速度,可正可负的整数,-1和1相同,表示不变速。小于 -1 表示降低速度,大于1 表示提高速度 -->
<scrollMorePages>1</scrollMorePages> <!--注释:控制滚屏速度,0表示不滚屏,数值越大,采集越慢,注意:抓动态网页必须滚屏 -->
<stopOnDupCont>true</stopOnDupCont>
<closePopup>false</closePopup>
<allowPlugin>false</allowPlugin>
<allowImage>true</allowImage>
<allowJavascript>true</allowJavascript>
</step>
</thread>
这个任务是在2天前启动,启动后能够正常执行抓取任务,但今天我重新导入一条线索,就不能抓取,截图如下
请问怎么解决?
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 1 个关于本帖的回复 最后回复于 2017-6-23 10:48