GooSeeker 产品资源教程视频教程使用交流资讯

开启辅助访问切换风格

快捷导航

集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

自动选择下拉菜单采集数据—以知网为例

2021-3-22 18:03| 发布者: Fuller| 查看: 11021| 评论: 0

摘要: 以中国知网的期刊为例，演示怎样从年份的下拉菜单中选择2016年，然后点击搜索按钮，搜索2016年的期刊。总共要做三个动作，动作1和2在下拉菜单中选择2016，动作3点击搜索。为了实现这个自动采集，需要建立两级任务， ...

配套软件版本：V10及更高数据管家——增强版网络爬虫

老版本对应教程：V9及更低集搜客网络爬虫的对应教程是《连续动作：自动选择下拉菜单采集数据—以知网为例》

以中国知网的期刊为例，演示怎样从年份的下拉菜单中选择2016年，然后点击搜索按钮，搜索2016年的期刊。总共要做三个动作，动作1和2在下拉菜单中选择2016，动作3点击搜索。

为了实现这个自动采集，需要建立两级任务，第一级任务通过连续动作来自动选择年份和点击搜索，第二级任务负责采集搜索结果，即期刊内容。

案例：

第一级采集规则：中国知网期刊检索前

第二级采集规则：中国知网期刊检索后

样本网址：http://epub.cnki.net/kns/brief/result.aspx?dbprefix=CJFQ

采集内容：每一篇文献的标题、作者、刊名、年期、被引、下载

1. 定义第一级任务

1.1 打开网页，进入任务定义状态

1.2 标注一个字段

在第一级任务的页面，没有我们要采集的字段。但是爬虫需要知道网页是否正确加载出来了，所以需要至少抓一个字段。字段的标注操作见《采集网页数据》。

1.3 设置动作

转到工作台4，新建动作。动作类型是“选择”。

动作后，执行的目标任务是“中国知网期刊检索后”。

1.3.1 第一个下拉菜单选择2016

点击一下起始年份，在下面的DOM窗口会自动定位到相应节点。这个节点有特殊的id属性：year_from ，所以 “生成XPath“选择”偏好id”。

xpath生成后，点击搜索，可以看到只定位到了当前这个节点，所以是正确的xpath。复制拷贝到交互位置。在动作名称写上文字，是为了方便清楚每个动作的用处。

起始时间框对应SELECT节点，它的下级有很多option节点，每个option对应一个具体的年代，第41个option对应2016，所以在高级设置里起点选择41。

跨度10是什么意思？就是隔10个option再去选择，本例只想选2016，所以跨度选择了一个比较大的数10，因为没有第51个option。

另外上图中，额外延时2秒，表示做完这个动作后延迟2秒再去做第二个动作，是为了避免动作做得太快而页面还没做出反应导致采集失败。下面两个动作，都选择了额外延时2秒。

Tips：选择类型的连续动作，定位表达式必须写到下拉菜单的select节点，而不能写到某一个选项的option节点，否则运行时会报错。

1.3.2 第二个下拉菜单选择2016

在第二个下拉菜单中，选择到2016。操作过程与起始年份选择类似。

1.3.3 点击搜索按钮

第三个动作是点击动作。

1.4 测试，保存第一个任务

到工作台2，测试，保存第一个任务。现在不要启动采集数据，因为第二级任务还没有做。

2. 退出第一级任务

橙色的退出按钮在浏览器的右上方。

3. 定义第二级任务

3.1加载出要采集的页面

在网页上搜索2016年期刊，加载出要采集的页面。然后，点击+号，进入第二级任务定义状态。第二级任务的名字要与第一级任务中指定的下级任务名一致。

3.2 标注字段，样例复制和翻页设置

知网的期刊搜索页面是典型的带翻页的列表页面。可以按初级教程里的《采集网页数据》，《采集列表数据》《翻页采集》来定义任务。完成后，测试保存第二级任务。

4. 启动任务，采集数据

第一级和第二级任务都定义完成后。去任务管理页面。

启动第一级任务，采集数据。注意，不用去启动第二级任务，它会自动执行。

期刊搜索结果有很多页，如果想要采集快点结束，可以在启动采集，限制翻页次数。

采集过程中，可以看到在采集窗口，自动选择了2016年，并自动点击搜索，搜索结果加载出来，然后一页页翻页采集。

采集完成后，按采集窗口的提示，导出excel。

本例采集到的样本数据。

上篇文章：《鼠标悬停信息采集—以淘宝店铺动态评分为例》 下篇文章：《自动回退返回上级页面-以懂车帝采集为例》

上一篇：在Jupyter Notebook中用python提取pdf表格及文本内容下一篇：自动回退返回上级页面-以懂车帝采集为例

最新评论

相关分类

下级分类

热门排行

旧版: 网站; 社区

支持: 常见问题; 视频教程; 速查手册; 指导书

关于: 公司简介; 联系方式; 友情链接

关注: 新浪微博; 官方微信

4008-770-662
仅收市话费，周一至周日9:00-18:00
24小时在线客服

GMT+8, 2025-7-11 10:26