第一级规则名是:兰州网络问政终,第二级规则名称是:网络问政详细信息。
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-6-26 16:57

沙发
maomao 论坛元老 发表于 2020-6-26 13:52:08 | 只看该作者
是哪个规则失败?
举报 使用道具
板凳
Fuller 管理员 发表于 2020-6-26 16:57:55 | 只看该作者
第一级规则的问题:
做样例复制的时候,一定要选择第一条和第二条,不然采集不全
第二级页面很难采集,因为整个网页上没有合适的定位标志,由下图可见,生成的xpath都是从 /html这个根节点可是的,中间万一出现一个结构变化,就适配不了了。

我能想到的办法是:
方案1: 手工改写xpath,这个难度太大
方案2: 针对失败的网址,再做一个规则,在相同任务名下面可以做很多规则,每个规则适配一种页面。为了区分这些规则,任务名相同,但是规则编号要不一样


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 06:37