目标:  抓取  http://jgjc.ndrc.gov.cn/list.aspx?clmId=708  网站下各列表中二级网页里的内容,比如: http://jgjc.ndrc.gov.cn/Detail.aspx?newsId=8302&TId=708  里面的各个价格数据。
一级任务名,ndrc_020601   , 抓取成功
二级任务名,ndrc_020602  , 有的网页能抓到,有的抓取失败,日志里面提示:ValidateDelayedPage        抓取失败(超时),抓取规则不合适或者超时时间设置太短

请各位大神指点,谢谢。
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-2-8 14:32

沙发
Fuller 管理员 发表于 2020-2-8 11:31:12 | 只看该作者
这种问题一般来说是第二级页面各自有细微的差别,提高适应性的方法是加上定位标志映射,我具体看看你的规则
举报 使用道具
板凳
Fuller 管理员 发表于 2020-2-8 11:36:09 | 只看该作者


新闻、公告等等自由格式的网页内容不能用统一的爬虫模板进行采集,因为这些网站发布这样的网页的时候没有使用统一的模板,一般都是随意编辑的,定义爬虫模板就太难了。

通常我们处理这种网页的时候都是把整个正文内容采集下来,然后写清洗程序,针对特定的字符进行抽取。

如果网页数量少,比如几千个以内,我们通常都是用摘录软件,一个个进行摘取
举报 使用道具
地板
qqhzyb 新手上路 发表于 2020-2-8 12:16:29 | 只看该作者
摘录软件有推荐的吗
举报 使用道具
5#
Fuller 管理员 发表于 2020-2-8 14:32:04 | 只看该作者
qqhzyb 发表于 2020-2-8 12:16
摘录软件有推荐的吗

摘录软件是我们内部使用的软件,会在春节放假后公开发布给大家使用
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 15:52