总共267个线索,前18个成功了。后续一直失败。不知道是什么那里出问题了。
求大神解答。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2020-2-21 19:25

沙发
Fuller 管理员 发表于 2020-2-21 15:53:27 | 只看该作者
如果不是被封锁了,那么就是规则不适应,提高适应性的方法是给抓取内容做定位标志映射,参看教程《定位标志精确采集范围
界面下部是日志窗口,记住里面的线索编号,按照这个教程加载和分析失败原因:《怎样解决规则失败和遗漏问题
举报 使用道具
板凳
li97124 初级会员 发表于 2020-2-21 16:40:40 | 只看该作者
不是规则的原因。(我又重新做了内容定位标志映射,还是出现问题)
我查了失败原因:无法定位容器或者无法定位抓取内容。
举报 使用道具
地板
li97124 初级会员 发表于 2020-2-21 16:49:22 | 只看该作者
Fuller 发表于 2020-2-21 15:53
如果不是被封锁了,那么就是规则不适应,提高适应性的方法是给抓取内容做定位标志映射,参看教程《定位标志 ...

不是规则的原因。(我又重新做了内容定位标志映射,还是出现问题)
我查了失败原因:无法定位容器或者无法定位抓取内容。


求帮看哪里出了问题

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
Fuller 管理员 发表于 2020-2-21 17:02:36 | 只看该作者
li97124 发表于 2020-2-21 16:49
不是规则的原因。(我又重新做了内容定位标志映射,还是出现问题)
我查了失败原因:无法定位容器或者无 ...

我加载了你的规则,有两大问题:
1,不应该选择绝对定位。像这些经营性的网站,都是动态网页,绝对定位基本上会失败。因为在网页上采集单条内容,选择“偏好id”比较合适
2,没有做定位标志映射,影响规则的适应性。

看下图,我是这样做的。如果还不行,你把失败的网址发出来几个


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
li97124 初级会员 发表于 2020-2-21 17:38:18 | 只看该作者
Fuller 发表于 2020-2-21 17:02
我加载了你的规则,有两大问题:
1,不应该选择绝对定位。像这些经营性的网站,都是动态网页,绝对定位基 ...

我重新改了规则,还是不行。

这是目前的几个线索编号网址


https://you.ctrip.com/travels/wulong120015/3905256.html

https://you.ctrip.com/travels/chongqing158/3790448.html

https://you.ctrip.com/travels/chongqing158/3786722.html


不知道是不是网络原因,状态面板栏验证规则下面一直显示匹配失败。


举报 使用道具
7#
Fuller 管理员 发表于 2020-2-21 18:27:45 | 只看该作者
li97124 发表于 2020-2-21 17:38
我重新改了规则,还是不行。

这是目前的几个线索编号网址

他们的网页结构都不一样,有的有标题,有的没有,所以这个规则就不适合
举报 使用道具
8#
li97124 初级会员 发表于 2020-2-21 18:32:01 | 只看该作者
Fuller 发表于 2020-2-21 18:27
他们的网页结构都不一样,有的有标题,有的没有,所以这个规则就不适合
...

那咋整呀。哎,
需要论文数据……
那请问还有其他方法爬它的数据吗?

举报 使用道具
9#
Fuller 管理员 发表于 2020-2-21 18:37:40 | 只看该作者


这个结构就不一样,就是标题不一样,内容的定位标志还有效。我估计这个网站有好几套模板,那么就要定义多个规则,让这些规则的任务名相同,规则编号不一样,那么爬虫会选一个合适的。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
10#
li97124 初级会员 发表于 2020-2-21 19:25:28 | 只看该作者
Fuller 发表于 2020-2-21 18:37
这个结构就不一样,就是标题不一样,内容的定位标志还有效。我估计这个网站有好几套模板,那么就要定义多 ...

好的,谢谢。我去试试。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-26 05:05