主题名:天眼查详情370764更新版,问题是规则加载后需分析没有问题,测试也没问题,抓取的时候匹配失败,麻烦看一下,为什么
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-2-20 14:19

沙发
quyixuan 金牌会员 发表于 2017-2-20 11:01:34 | 只看该作者
我运行了没问题啊,你匹配失败的是你后来添加的线索吧
举报 使用道具
板凳
ejsino 高级会员 发表于 2017-2-20 11:22:40 | 只看该作者
不可能每一个都失败啊,关键是我样本网页爬的数据包括后开爬虫运行的都显示匹配失败了
举报 使用道具
地板
quyixuan 金牌会员 发表于 2017-2-20 11:39:22 | 只看该作者
ejsino 发表于 2017-2-20 11:22
不可能每一个都失败啊,关键是我样本网页爬的数据包括后开爬虫运行的都显示匹配失败了 ...

样本页面匹配应该是成功的,应该还是你添加的线索的网页结构不适用,你可以发几个匹配失败的网址出来,我再看看

举报 使用道具
5#
ejsino 高级会员 发表于 2017-2-20 11:46:05 | 只看该作者
http://www.tianyancha.com/company/2352900608
http://www.tianyancha.com/company/2758176263
http://www.tianyancha.com/company/2352867699
http://www.tianyancha.com/company/548739711
其中最后一个不匹配,没有经营范围是肯定不会的,前三个看着差不多,但是匹配失败了
举报 使用道具
6#
quyixuan 金牌会员 发表于 2017-2-20 11:52:37 | 只看该作者
ejsino 发表于 2017-2-20 11:46
http://www.tianyancha.com/company/2352900608
http://www.tianyancha.com/company/2758176263
http://www ...


样本页面的是这样的结构


你添加的线索其中一个是这样的结构,结构不同是肯定回匹配失败的,我看了一下你发的这几个网址这个地方的结构都不同


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
scraper 论坛元老 发表于 2017-2-20 14:19:23 | 只看该作者
ejsino 发表于 2017-2-20 11:46
http://www.tianyancha.com/company/2352900608
http://www.tianyancha.com/company/2758176263
http://www ...

你的样本页面的法人是有具体名称的
报错的页面都是法人未公开的


而且你对这个字段勾选了关键内容
所以找不到这个内容就报错了

这个字段可以不用勾关键内容
因为你在另一个整理箱已经对单位名称勾选了关键内容

另外 可以对法人这个字段写自定义xpath来兼容两种页面

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-4 13:52