Fuller 管理员 发表于 2019-4-8 23:37:19 | 显示全部楼层
chen_tian_cai 发表于 2019-4-8 23:21
类似这样的箭头,出现了如下的翻页标记

ka这个是自定义的属性,你确定下一页标志就是它吗?别的a节点有没有这个属性?
是否有效主要看有没有翻到下一页。你遇到的超时,不是跟翻页有关,而是翻页前或者翻页后看到的网页内容不符合你定义的规则。

如果这个网站是公开的,可以把主题名贴出来,我帮你分析一下
举报 使用道具
chen_tian_cai 新手上路 发表于 2019-4-9 08:36:31 | 显示全部楼层
您好,我是在BOSS直聘上面爬取相关信息的,它的翻页符号就是一个大于符号,然后设置翻页采集记号时出现的就是那三种@,另外我发现最后一个@href输出的网址好像是动态的,里面网址的page不一样,希望您空闲之余能帮我看看是什么问题,不胜感激
举报 使用道具
chen_tian_cai 新手上路 发表于 2019-4-9 08:40:04 | 显示全部楼层
Fuller 发表于 2019-4-8 23:37
ka这个是自定义的属性,你确定下一页标志就是它吗?别的a节点有没有这个属性?
是否有效主要看有没有翻到 ...

您好,我是在BOSS直聘上面爬取相关信息的,它的翻页符号就是一个大于符号,然后设置翻页采集记号时出现的就是那三种@,另外我发现最后一个@href输出的网址好像是动态的,里面网址的page不一样,希望您空闲之余能帮我看看是什么问题,不胜感激

举报 使用道具
Fuller 管理员 发表于 2019-4-9 08:42:05 | 显示全部楼层

最后这个大于号对应的@ka属性跟其他页码的@ka是否一样?如果最后这个大于号的@ka是独特的,那就可以用做翻页记号
举报 使用道具
Fuller 管理员 发表于 2019-4-9 08:43:45 | 显示全部楼层
爬虫运行的时候,你观察一下:
1,有没有看到翻页?
如果没有看到翻页,就遇到了超时,那说明数据采集规则有问题,跟翻页无关。你重新加载规则,有没有看到失败信息?加载规则的方法参看:https://www.gooseeker.com/doc/article-124-1.html
举报 使用道具
chen_tian_cai 新手上路 发表于 2019-4-9 11:00:18 | 显示全部楼层
Fuller 发表于 2019-4-9 08:42
最后这个大于号对应的@ka属性跟其他页码的@ka是否一样?如果最后这个大于号的@ka是独特的,那就可以用做 ...

这个@ka属性如何查看?
举报 使用道具
chen_tian_cai 新手上路 发表于 2019-4-9 11:04:50 | 显示全部楼层
Fuller 发表于 2019-4-9 08:43
爬虫运行的时候,你观察一下:
1,有没有看到翻页?
如果没有看到翻页,就遇到了超时,那说明数据采集规则 ...

爬取的时候我没看到翻页,线索总数也只有1条,您说的数据采集规则我回去再试试,当时我有爬取的应该是整个网页的信息的,但就是无法翻页,应该还是翻页规则的问题
举报 使用道具
Fuller 管理员 发表于 2019-4-9 11:20:24 | 显示全部楼层
chen_tian_cai 发表于 2019-4-9 11:00
这个@ka属性如何查看?

属性20190409111924.png
属性的查看方法如上图
举报 使用道具
Fuller 管理员 发表于 2019-4-9 11:21:20 | 显示全部楼层
chen_tian_cai 发表于 2019-4-9 11:04
爬取的时候我没看到翻页,线索总数也只有1条,您说的数据采集规则我回去再试试,当时我有爬取的应该是整 ...

如果翻页规则不正确,看不到翻页,也不会有错误信息显示
举报 使用道具
chen_tian_cai 新手上路 发表于 2019-4-9 20:24:54 | 显示全部楼层
捕获.PNG

设置翻页记号遇到如上图所示,没有text结点,昨天点了@class、@ka都失败了,请问是什么原因呢,地址如下:
https://www.zhipin.com/c101210100/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&page=1&ka=page-prev
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:18