有的能抓取到，有的不能抓到。提示抓取失败（超时）

qqhzyb

目标：抓取 http://jgjc.ndrc.gov.cn/list.aspx?clmId=708 网站下各列表中二级网页里的内容，比如： http://jgjc.ndrc.gov.cn/Detail.aspx?newsId=8302&TId=708 里面的各个价格数据。
一级任务名，ndrc_020601 ，抓取成功
二级任务名，ndrc_020602 ，有的网页能抓到，有的抓取失败，日志里面提示：ValidateDelayedPage 抓取失败（超时），抓取规则不合适或者超时时间设置太短

请各位大神指点，谢谢。

Fuller · 发表于 2020-2-8 11:31:12

这种问题一般来说是第二级页面各自有细微的差别，提高适应性的方法是加上定位标志映射，我具体看看你的规则

Fuller · 发表于 2020-2-8 11:36:09

新闻、公告等等自由格式的网页内容不能用统一的爬虫模板进行采集，因为这些网站发布这样的网页的时候没有使用统一的模板，一般都是随意编辑的，定义爬虫模板就太难了。

通常我们处理这种网页的时候都是把整个正文内容采集下来，然后写清洗程序，针对特定的字符进行抽取。

如果网页数量少，比如几千个以内，我们通常都是用摘录软件，一个个进行摘取

qqhzyb · 发表于 2020-2-8 12:16:29

摘录软件有推荐的吗

Fuller · 发表于 2020-2-8 14:32:04

qqhzyb 发表于 2020-2-8 12:16
摘录软件有推荐的吗

摘录软件是我们内部使用的软件，会在春节放假后公开发布给大家使用

有的能抓取到，有的不能抓到。提示抓取失败（超时）

共 4 个关于本帖的回复最后回复于 2020-2-8 14:32

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

有的能抓取到，有的不能抓到。提示抓取失败（超时）

共 4 个关于本帖的回复 最后回复于 2020-2-8 14:32

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2020-2-8 14:32