请教关于timeout to load the page的问题

从去年开始接触,一直非常喜欢这个软件,也一直在用来抓取测试数据。请问如何提高一下规则的尽可能不出现timeout to load the page,使数据抓取更多。(排除 淘宝宝贝下架等特殊原因)

最近不知道为什么,抓取淘宝数据的时候,假设线索有4000,实际抓取下来只有3500.有500个是timeout to load the page
检查测试了2天,没办法解决。特来求教。

第一层规则:anli1400
第二层规则:anli1400_sales【辅助名:default,new,tmall】

第一层没有问题,第二层抓取的时候,总会出现很多timeout to load the page。
最关键很多抓不到的我加载线索查不到问题,是可以抓取完整数据。

第二层规则量比较多。麻烦了,谢谢。

^<?xml version="1.0" encoding="UTF-8"?^>
^
^
^
^true^
^5^
^108000^
^true^
^1^
^1^
^
^
^anli1400_sales^
^10000^
^1^
^false^
^100^
^true^
^-1^
^-1^
^20^
^10^
^20^
^true^
^3^
^
^
^

timeout有很多原因

可能原因是
1)网络暂时拥塞,造成抓取超时
2)信息结构定义的不合适,无法抓取这个网页

可以使用DataScraper主题列表上的右键弹出菜单把线索激活,也就是把那些timeout的激活,再次对他们进行抓取,最好采用手工启动批量抓取,观察一下还有多少timeout。在下部的日志窗口中会罗列timeout日志,每个都对应一个线索号。在MetaStudio上,选择菜单“编辑”-〉“信息结构”-〉“加载”-〉“按线索”,输入线索号,就能把这个线索对应的网页加载上来并进行分析。

辅助名的问题

某规则的 辅助名是 default , tmall

如果抓取的数据大部分都是 使用tmall 来抓取。 很少用default

数据量会不会收到影响呢?

数据量应该不会受到影响

有多个信息结构的时候,要注意它们应该是互斥的,如果其中一个普遍适应所有网页,就不会使用其它的了

谢谢

O(∩_∩)O~

配置文件

crontab
thread name="anli1400_sales"
parameter
autotrue/auto
start5/start
period108000/period
waitOnloadtrue/waitOnload
minIdle1/minIdle
maxIdle1/maxIdle
/parameter
step name="crawl"
themeanli1400_sales/theme
loadTimeout10000/loadTimeout
lazyCycle1/lazyCycle
updateCluefalse/updateClue
dupRatio100/dupRatio
timerTriggeredtrue/timerTriggered
depth-1/depth
width-1/width
scrollWindowRatio20/scrollWindowRatio
scrollMorePages10/scrollMorePages
resumePageLoadtrue/resumePageLoad
resumeMaxCount3/resumeMaxCount
/step
/thread
/crontab