31#
Heart2019 新手上路 发表于 2019-4-18 11:32:20 | 只看该作者
Fuller 发表于 2019-4-18 08:54
就像我前面帖子说的,如果定位标志中含有编号0,1,2,3之类的,这种一般要避免,因为很可能第一条编号0,第 ...

对于我的电脑来说,在定位映射时,ID和class值里总是会含有数字,不知道该如何避免这种情况。
举报 使用道具
32#
Fuller 管理员 发表于 2019-4-18 11:33:44 | 只看该作者
Heart2019 发表于 2019-4-18 09:02
通过修改,测试数据可以显示当页列表数据了,但是下载时还是显示失败。
...

article-result-1这种定位标志尽量避免,后面有个序号1,在另外的网页上可能就是2了,那么就失效了。
举报 使用道具
33#
Heart2019 新手上路 发表于 2019-4-18 16:53:00 | 只看该作者
Fuller 发表于 2019-4-18 11:33
article-result-1这种定位标志尽量避免,后面有个序号1,在另外的网页上可能就是2了,那么就失效了。
...

可是我打开网页定义规则时,自动出现带数字的ID或class标志,怎么办呢?
举报 使用道具
34#
Fuller 管理员 发表于 2019-4-18 16:56:58 | 只看该作者
Heart2019 发表于 2019-4-18 16:53
可是我打开网页定义规则时,自动出现带数字的ID或class标志,怎么办呢?

从这个DOM节点往父节点上找,如果紧挨着的或者比较近的祖先节点有合适的class或者id可用,就用手工的定位标志映射,就能跳过去那个自动选择的。

如果找不到合适的,如果规则中的大部分抓取内容都做了手工的定位标志映射,而且整理箱的最顶上的那个容器节点也做了定位标志映射,那么就可以使用绝对定位的方式,凡是没有手工做定位标志映射的抓取内容都会使用绝对定位的xpath,不会含有class或者id
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置
  • 为集搜客分词和情感分析扩展模块安装情感分
  • 集搜客分词软件的选词矩阵在哪里下载?

热门用户

GMT+8, 2026-2-21 14:27