一级抓取(新能源抓取1)和二级抓取(专利详情2)做了样例复制和翻页,为什么只能采集一条数据?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2022-4-26 11:02

Fuller 管理员 发表于 2022-4-26 10:45:03 | 显示全部楼层
在第一级规则中,你把 专利详情2 标注到了第二条信息上了,这样就错乱了
举报 使用道具
Fuller 管理员 发表于 2022-4-26 11:02:02 | 显示全部楼层
我测试了一下第二级规则,除了样本页面采集成功,其他都采集失败了。

第二级页面上一个class或者id都没有,爬虫规则是绝对定位html节点的,这样,万一网页上的内容顺序有变化,或者数量有增减,就会失败。为了提高适应性,可以用自定义xpath,例如,inventors: xxx ,xpath可以用contains()函数把 "Inventors"作为一个定位标志。

另外,网页上的每个信息块都是一个table,可以把这些table用独立的表进行存储。在定义规则工作台上,有个 +表 按钮,可以创建好几个表,而不是把要采集的内容都放在一个表中
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选

热门用户

GMT+8, 2026-4-19 07:53