本帖最后由 happy1314gao 于 2019-4-8 10:06 编辑

链接为
获取二级链接的时候无法获取。提示时这个页面



这样的如何获取二级页面。



规则名为   全国食品目录
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2019-4-9 11:23

沙发
Fuller 管理员 发表于 2019-4-8 09:46:41 | 只看该作者
主题名是什么?
举报 使用道具
板凳
Fuller 管理员 发表于 2019-4-8 09:47:53 | 只看该作者
把主题名发出来才能帮你加载分析规则
举报 使用道具
地板
happy1314gao 初级会员 发表于 2019-4-8 10:06:43 | 只看该作者
Fuller 发表于 2019-4-8 09:47
把主题名发出来才能帮你加载分析规则

全国食品目录
举报 使用道具
5#
Fuller 管理员 发表于 2019-4-8 10:31:59 | 只看该作者


我试了,用自定义xpath是可以采集到完整网址的,但是把这个网址单独拿出来用不行,一定要做连续点击才有用。

你可以试试自定义xpath。定位表达式是
  1. td/p/a/@href
复制代码
内容抓取表达式是
  1. substring-before(substring-after(td/p/a/@href, '"'), '"')
复制代码


举报 使用道具
6#
Fuller 管理员 发表于 2019-4-8 10:34:26 | 只看该作者

这个做连续点击比较好,在详情页有个返回按钮,在详情页这一级做个点击动作就能回到列表页,不用回退动作
举报 使用道具
7#
happy1314gao 初级会员 发表于 2019-4-8 10:42:20 | 只看该作者
Fuller 发表于 2019-4-8 10:31
我试了,用自定义xpath是可以采集到完整网址的,但是把这个网址单独拿出来用不行,一定要做连续点击才有 ...

直接复制,出现这个
举报 使用道具
8#
Fuller 管理员 发表于 2019-4-8 10:57:18 | 只看该作者
happy1314gao 发表于 2019-4-8 10:42
直接复制,出现这个

我改了一下那个帖子,要做转义,你再看看。用这个方法采集到的网址用不了,这个网站做了权限限制
举报 使用道具
9#
happy1314gao 初级会员 发表于 2019-4-8 15:15:25 | 只看该作者
Fuller 发表于 2019-4-8 10:57
我改了一下那个帖子,要做转义,你再看看。用这个方法采集到的网址用不了,这个网站做了权限限制
...

直接制作一级规则吗?还是要制作二级规则?
举报 使用道具
10#
happy1314gao 初级会员 发表于 2019-4-8 15:53:09 | 只看该作者
Fuller 发表于 2019-4-8 10:57
我改了一下那个帖子,要做转义,你再看看。用这个方法采集到的网址用不了,这个网站做了权限限制
...

连续点击只能点击第一个网页的,详情,怎么样才能点击第二个的?

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 21:01