抖音短视频因为其具有易上手,互动性强,内容有趣,社交黏度高等特点,影响力越来越广,吸引了大量不同年龄不同职业的用户,又反过来吸引大量专业的媒体传播者入驻,形成了良性循环。 基于抖音短视频分析的研究也变得很流行,成为了大学生毕业论文选材的一个热点。 近期抖音开通了网页版,可以直接在浏览器上用关键词搜索和查看抖音短视频, 进行点赞,评论,转发。 GooSeeker也及时上架了抖音关键词搜索快捷采集,为写论文和搞研究的小伙伴们提供一个获取抖音数据的方便快捷的方法。 今天我们就介绍怎样使用快捷采集来获取抖音关键词搜索得到的短视频信息。 1,下载和安装GooSeeker网络爬虫 首先下载安装Gooseeker网络爬虫软件,最新版名字叫做:数据管家(增强版爬虫软件) 数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。 安装完毕,数据管家会自启动。关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。 2,运行爬虫软件 在Gooseeker数据管家,打开集搜客官网https://www.gooseeker.com 登陆爬虫,登陆会员中心(注意爬虫账号和会员中心账号一定要一致),并检查是否已经连上服务器(绿勾连接,红勾未连接)。 详细过程不重述了,可以查阅《如何使用快捷采集-以微博签到数据采集为例》的第2步。 3,登陆抖音网站 根据使用经验,采集抖音之前,需要先登录抖音网站,才能持续浏览完整内容。 在数据管家新开一个页签,在新页签打开抖音网站 https://www.douyin.com/,并登陆一个抖音账号,一般直接用手机验证码就可以。 4,进入快捷采集页面 点击数据管家左侧边栏的“快”按钮,进入快捷采集。 5,选择合适的快捷工具 根据要采集的网页,选择 类别 - 网站 - 网页。 对于抖音来说,就是点击:热门 - 抖音 - 抖音关键词搜索采集 如下图所示,可以打开示例页面看看,确保后面操作时,添加的链接和示例页面类似。或者浏览网页下方的示例数据,进一步了解选定的快捷工具是否满足要求。 6,操作步骤 6.1 获得网址 在抖音的页面上,输入要搜索的关键词 ”西安赏花“,点击搜索,在网页上选择视频,把浏览器地址栏的网址复制出来。 比如搜索“西安赏花”,复制图中箭头所指网址 6.2 粘贴网址,启动采集 把上一步得到的网址用Ctrl+v粘贴到快捷工具的网址输入栏,并选择页数,启动采集。 6.3 采集中的爬虫窗口 点击获取数据之后,数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。两个采集窗口工作时,都不能关闭。 6.4 打包下载数据 数据管家在弹出采集窗口的同时,还弹出了一个快捷采集数据管理窗口。 采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已采集”。然后打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。 如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查 1. 添加的链接是否和样本页面类似; 2. 需要提前登陆的网站,是否已经登陆; 再重新采集一遍,注意观察采集窗口,网页是否正常加载,如果网页正常加载,但仍然采集失败,请在论坛或者QQ群联系集搜客官方,我们会及时测试维护这些工具。 7. 采集到的数据 抖音关键词搜索的样例数据: |
2826691323: 采集评论的话没有按照点赞数由高到低采集吗?包括视频也是,采集规则是随机的吗?而且数据量好少
Season_66: 请问不能爬取话题里面的视频吗?例:#养生 话题里面的短视频 <a href="https://v.douyin.com/Mb3EoFc/" target="_blank">https://v.douyin.com/Mb3EoFc/</a>