飞掠模式的弹窗采集后不关闭是什么原因?要是有几万个弹窗系统不可能受得了啊。另外好像弹出窗口后并没有按照飞掠后续的任务采集,请帮我看一看。

我的三级规则:
知网-法律法规-前置条件1
知网-法律法规-逐项点击
知网-法律法规-具体内容
举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2020-2-1 09:41

沙发
Fuller 管理员 发表于 2020-1-29 17:42:14 | 只看该作者
我正在逐个分析你的规则,第一级规则前面3步最好放在一个规则中,后面的两个步骤放在另一个规则中。
第二步是输入,我记得这个网站要勾上输入联想,不然可能会输入没有用


举报 使用道具
板凳
Fuller 管理员 发表于 2020-1-29 17:49:35 | 只看该作者
第二级规则,如果想点击每一条,显然这个定位xpath是不合适的,把这个xpath拷贝到搜索输入框中,只能搜索到一条


用上面定位到的DOM节点,点击左边的显示XPath按钮,得到一条更加简单的xpath: //*[@class='fz14']<context>//*[@id='iframeResult']</context> ,再点击搜索按钮,可以看到刚好能搜到20条,这个xpath才合适

举报 使用道具
地板
Fuller 管理员 发表于 2020-1-29 17:52:35 | 只看该作者
第三级规则,为什么还要翻页?这个翻页规则没有加载成功
举报 使用道具
5#
Fuller 管理员 发表于 2020-1-29 17:54:19 | 只看该作者
Fuller 发表于 2020-1-29 17:42
我正在逐个分析你的规则,第一级规则前面3步最好放在一个规则中,后面的两个步骤放在另一个规则中。
第二步 ...

把第一级规则拆成两级规则,这个只是建议,不拆也行。不拆的话,加载分析规则有些麻烦,要先做好输入和搜索以后后面的两步才能有效。但是也不影响爬虫的运行
举报 使用道具
6#
henry2144 中级会员 发表于 2020-1-29 17:55:31 | 只看该作者
Fuller 发表于 2020-1-29 17:52
第三级规则,为什么还要翻页?这个翻页规则没有加载成功

有的页面是需要翻页的。
举报 使用道具
7#
henry2144 中级会员 发表于 2020-1-29 17:59:12 | 只看该作者
Fuller 发表于 2020-1-29 17:49
第二级规则,如果想点击每一条,显然这个定位xpath是不合适的,把这个xpath拷贝到搜索输入框中,只能搜索到 ...

难道不是需要填入20个点击的动作吗?还是利用你说的能搜到20条的XPath输入一个动作,然后他自动执行20个动作?
举报 使用道具
8#
Fuller 管理员 发表于 2020-1-29 18:00:22 | 只看该作者
刚才第二级看漏了一些。你不应该定义那么多步骤。你的目的是为了点击20篇搜索结果,定义一个点击步骤就行了,就是这个xpath: //*[@class='fz14']<context>//*[@id='iframeResult']</context>。能循环20次
凡是需要循环的,只要xpath定义的合适,都会自动做。比如,要循环点击20次,如果xpath能定位到20个点击位置,只需要一个点击步骤就会自动循环;如果需要输入20个关键词,只需要一个输入步骤,在会员中心那里输入所有关键词,爬虫会自动循环。(旗舰版才能输入关键词和飞掠)


举报 使用道具
9#
Fuller 管理员 发表于 2020-1-29 18:03:20 | 只看该作者
henry2144 发表于 2020-1-29 17:59
难道不是需要填入20个点击的动作吗?还是利用你说的能搜到20条的XPath输入一个动作,然后他自动执行20个 ...

关于循环,这篇文章的第四章讲了:https://www.gooseeker.com/doc/article-370-1.html

重点是xpath要写好,让xpath能定位到所有要执行动作的节点
举报 使用道具
10#
henry2144 中级会员 发表于 2020-1-29 18:54:03 | 只看该作者
哦,明白了,谢谢啊。大过年的坚守岗位,向你致敬!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 08:02