<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >
<xsl:template match="/">
<发发奇列表>
<xsl:apply-templates select="/html/body/div[position()=1]/main/section[position()=1]/div/div[position()=3]/div[position()=2]/div[position()=2]/div/div[position()=1]/ul/div[position()>=1 and count(a/@href)>0]" mode="发发奇列表"/>
</发发奇列表>
</xsl:template>
<xsl:template match="/html/body/div[position()=1]/main/section[position()=1]/div/div[position()=3]/div[position()=2]/div[position()=2]/div/div[position()=1]/ul/div[position()>=1 and count(a/@href)>0]" mode="发发奇列表">
<item>
<货品一>
<xsl:value-of select="a/@href"/>
</货品一>
</item>
</xsl:template>
</xsl:stylesheet>

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-12-22 12:28

沙发
maomao 论坛元老 发表于 2021-12-22 10:47:32 | 只看该作者
采集Farfetch列表页,我们有个成熟的规则可以下载。下载后,根据你自己下级规则的名字,改下级规则的名字
下载链接:
https://www.gooseeker.com/secure ... ew/share663129.html

举报 使用道具
板凳
Fuller 管理员 发表于 2021-12-22 11:13:33 | 只看该作者
你的规则名字是什么?发出来我帮你检查一下
举报 使用道具
地板
Fuller 管理员 发表于 2021-12-22 12:28:08 | 只看该作者
我发现采集这个网站需要至少两个地方要注意:
1,因为这个规则的翻页那里设置了模拟点击,如果爬虫一打开那个网页显示了一个提示框,模拟点击就没法点击到“下一页”按钮了,所以,要么修改规则,翻页那里不要勾模拟点击,要么在爬虫浏览器中看到提示框就赶快手工关闭一下,关闭一次好像后面就不出现了。
2,这个网页比较高,滚屏数量要足够大,我测试了,设置滚屏次数为20,才能看到翻页区显示了出来。如果翻页区没有显示出来,就点击不到“下一页”
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别

热门用户

GMT+8, 2026-4-9 01:37