6 10302

匹配失败

Easec888 于 2021-8-25 20:25 发表 [复制链接]
私募基金管理人信息查询第12级为什么有的匹配成功有的失败,行数也没有差别
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2021-8-26 11:39

Fuller 管理员 发表于 2021-8-26 09:24:05 | 显示全部楼层
有多种方法分析为什么有些网页是失败的。我这里介绍一种方法:先找到失败的网址,加载网页,然后用规则分析这个网页
以下假定使用数据管家——增强版网络爬虫浏览器访问集搜客会员中心,这样就可以所有的操作都集成在一体,一气呵成。


1,进入任务管理

进入任务管理.png

2,找一个失败线索作为样本
如下图,选择“失败”线索,然后点击这条线索,就会打开这个网页


找到失败线索.png

3,进入定义规则模式
点击左栏的 + 按钮,进入定义规则模式

1定义规则.png

4,输入规则名,点击加载规则
【注意弹框中的选择】不要勾加载样本页面,因为你已经把要分析的页面加载好了

加载规则10.png

5,分析页面和修改规则
参看《爬虫任务的加载、修改和另存》的最后一步,执行分析页面的时候,就会看到有很多失败提示,说明这个规则不适合这个网页,要做些调整

举报 使用道具
Easec888 中级会员 发表于 2021-8-26 10:09:14 | 显示全部楼层
Fuller 发表于 2021-8-26 09:24
有多种方法分析为什么有些网页是失败的。我这里介绍一种方法:先找到失败的网址,加载网页,然后用规则分析 ...

按操作,发现我所有失败的线索,测试时都能爬到数据,没有任何显示错误
举报 使用道具
Fuller 管理员 发表于 2021-8-26 10:23:54 | 显示全部楼层
Easec888 发表于 2021-8-26 10:09
按操作,发现我所有失败的线索,测试时都能爬到数据,没有任何显示错误
...

那就激活失败线索,重爬一次失败线索,可能那时候网页打不开造成的。

你有没有改动过超时时长?这个参数不能太短,不然没等网页显示出来,采集就结束了
举报 使用道具
Easec888 中级会员 发表于 2021-8-26 11:03:48 | 显示全部楼层
image.jpg ,也不是超时时长的原因
举报 使用道具
Easec888 中级会员 发表于 2021-8-26 11:04:21 | 显示全部楼层
任务名:
私募基金管理人信息查询第11级,
私募基金管理人信息查询第12级,麻烦看下吧
举报 使用道具
wangyong 版主 发表于 2021-8-26 11:39:40 | 显示全部楼层
Easec888 发表于 2021-8-26 11:04
任务名:
私募基金管理人信息查询第11级,
私募基金管理人信息查询第12级,麻烦看下吧 ...

QQ截图20210826112951.png
私募基金管理人信息查询第12级规则里不能每个内容都勾关键内容,关键内容是每个网页都出现的需要勾关键内容,采集的字段中不是每个网页都有,所以在哪些没有字段的网页就报错了


而且这个页面要精确抓取的需要每个采集内容都写自定义xpath用contains函数,例如:
  1. .//*[@class='table']/tbody/tr[contains(./td[1]/text(),'组织机构代码')]/td[2]
复制代码

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 18:08