4 11069

下级线索

13667084742 于 2019-12-11 17:09 发表 [复制链接]
为什么集搜客的下级线索链接打开后不是要爬取的网址?具体:就是在爬知网文献的时候,先设置了连续动作作为一级规则,连续动作的内容然作为二级规则,在二级规则下面再设置下级线索爬取文章的详细信息,但是通过测试发现,可以爬出链接,但是爬数据的时候爬不出数据,我看了一下爬数据的界面,发现不是要抓取的那个论文详情界面,之后我把下级线索的链接复制了下来,在浏览器里面打开,发现只是知网的初始页面,不是论文详情界面,求大神指点,喵喵
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-12-11 21:11

Fuller 管理员 发表于 2019-12-11 17:13:27 | 显示全部楼层
把你的规则名发出来吧,我帮你诊断一下规则。

知网稍微有点麻烦,知网的网页内容是套在iframe中的,内层iframe有自己的网址,很可能采集到网址不对。这是一个可能原因。

另外,有些网址是不允许再次打开的,这类网址内容的采集只能用连续点击动作,连续点击动作是在高级教程那里讲解的。https://www.gooseeker.com/tuto/tutorial.html

还有一点,知网采集规则有一些现成的,可以到快捷采集那里找找看:https://www.gooseeker.com/res/da ... =%E7%9F%A5%E7%BD%91
举报 使用道具
13667084742 初级会员 发表于 2019-12-11 19:56:34 | 显示全部楼层
Fuller 发表于 2019-12-11 17:13
把你的规则名发出来吧,我帮你诊断一下规则。

知网稍微有点麻烦,知网的网页内容是套在iframe中的,内层if ...

谢谢您,我的规则名是:一级规则:suibe_ydhzw1
二级规则:suibe_ydhzw2
三级规则:suibe_ydhzw3
举报 使用道具
13667084742 初级会员 发表于 2019-12-11 20:02:31 | 显示全部楼层
Fuller 发表于 2019-12-11 17:13
把你的规则名发出来吧,我帮你诊断一下规则。

知网稍微有点麻烦,知网的网页内容是套在iframe中的,内层if ...

前面两个规则都可以爬出来,就第三级规则爬不出来
举报 使用道具
Fuller 管理员 发表于 2019-12-11 21:11:50 | 显示全部楼层
13667084742 发表于 2019-12-11 20:02
前面两个规则都可以爬出来,就第三级规则爬不出来

我测试了,第三级的网址不能单独使用,单独拷贝出来,复制到浏览器地址栏,访问到的就是首页。

而如果直接在网页上点击进入下一级,就是正常的。

通常我们做规则的时候,都是在第二级上做连续点击动作,点击进去采集第三级,而不是用层级采集。

因为点击以后会弹出一个新的浏览器窗口,需要在第二集上定义连续动作的时候勾上“飞掠模式”,只有旗舰版才有飞掠模式
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:06