31#
Heart2019 新手上路 发表于 2019-4-18 11:32:20 | 只看该作者
Fuller 发表于 2019-4-18 08:54
就像我前面帖子说的,如果定位标志中含有编号0,1,2,3之类的,这种一般要避免,因为很可能第一条编号0,第 ...

对于我的电脑来说,在定位映射时,ID和class值里总是会含有数字,不知道该如何避免这种情况。
举报 使用道具
32#
Fuller 管理员 发表于 2019-4-18 11:33:44 | 只看该作者
Heart2019 发表于 2019-4-18 09:02
通过修改,测试数据可以显示当页列表数据了,但是下载时还是显示失败。
...

article-result-1这种定位标志尽量避免,后面有个序号1,在另外的网页上可能就是2了,那么就失效了。
举报 使用道具
33#
Heart2019 新手上路 发表于 2019-4-18 16:53:00 | 只看该作者
Fuller 发表于 2019-4-18 11:33
article-result-1这种定位标志尽量避免,后面有个序号1,在另外的网页上可能就是2了,那么就失效了。
...

可是我打开网页定义规则时,自动出现带数字的ID或class标志,怎么办呢?
举报 使用道具
34#
Fuller 管理员 发表于 2019-4-18 16:56:58 | 只看该作者
Heart2019 发表于 2019-4-18 16:53
可是我打开网页定义规则时,自动出现带数字的ID或class标志,怎么办呢?

从这个DOM节点往父节点上找,如果紧挨着的或者比较近的祖先节点有合适的class或者id可用,就用手工的定位标志映射,就能跳过去那个自动选择的。

如果找不到合适的,如果规则中的大部分抓取内容都做了手工的定位标志映射,而且整理箱的最顶上的那个容器节点也做了定位标志映射,那么就可以使用绝对定位的方式,凡是没有手工做定位标志映射的抓取内容都会使用绝对定位的xpath,不会含有class或者id
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-6-21 15:39