用网络爬虫下载图片时，是不是应该设置合适的超时时间？

发誓学好内容分析

我正在看《采集图片网址并下载图片》，我发现集搜客网络爬虫有个很大的特点，不用先采集网址，然后用下载器下载图片，而是下载图片和采集网址一气呵成。
很多时候，采集到的网址脱离了原来的会话就会失效，这种一气呵成的方法可以解决这种失效问题。

我现在有个疑问，如果图片很大，或者我要下载一个视频或者一个文件，他们的尺寸很大，要下载很长时间，我是不是应该设置爬虫软件的超时时长？

Fuller · 发表于 2021-1-24 17:38:37

你说的很对，爬虫软件为了防止过长时间的等待，就用一个参数进行控制：超时时长。也就是等待的最长时间，如果在这个时间之内没有完成，就会被强制中断了。

爬虫采集一个网址的时候，会连续经过好几个步骤，其中两个步骤花费时间比较多，如果超时时长设置成1分钟，那么这两个步骤共享这1分钟时间。

1，加载网页：这个步骤是在浏览器中自动输入网址，等待网站下发网页内容，有些网站会很慢，可以提高等待时间。在这个步骤，如果中断了，后面的所有步骤都不会执行了。

2，下载图片/视频/文件：这个步骤会根据爬虫规则的要求，下载指定的图片/视频/文件。如果超时了，下载的内容没有完成下载，那么在结果文件中就不会记录磁盘文件的路径和名称。但是并没有终止下载过程，你会发现视频文件实际已经下载下来了，只是在结果文件中记录为failed状态。另外，下载失败并不会中断爬虫的执行流程，这个线索最后的状态会变成“已完成”，而不是“失败”

所以，要估算好下载文件需要的时间，合理设置超时时长。
如果没有下载这个步骤，爬虫软件缺省设置的1分钟时间是足够的，如果有下载，要考虑一下，适当增加超时时长，在一个网页上下载的文件越多，需要的时间越多

用网络爬虫下载图片时，是不是应该设置合适的超时时间？

共 1 个关于本帖的回复最后回复于 2021-1-24 17:38

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

用网络爬虫下载图片时，是不是应该设置合适的超时时间？

共 1 个关于本帖的回复 最后回复于 2021-1-24 17:38

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2021-1-24 17:38