快捷导航

如何使用快捷采集-以抖音短视频搜索数据采集为例

2021-7-1 18:17| 发布者: Fuller| 查看: 10032| 评论: 29

摘要: 抖音短视频因为其具有易上手,互动性强,内容有趣,社交黏度高等特点,影响力越来越广,基于抖音短视频分析的研究也变得很流行,成为了大学生毕业论文选材的一个热点。GooSeeker也及时上架了抖音关键词搜索快捷采集 ...

抖音短视频因为其具有易上手,互动性强,内容有趣,社交黏度高等特点,影响力越来越广,吸引了大量不同年龄不同职业的用户,又反过来吸引大量专业的媒体传播者入驻,形成了良性循环。

基于抖音短视频分析的研究也变得很流行,成为了大学生毕业论文选材的一个热点。

近期抖音开通了网页版,可以直接在浏览器上用关键词搜索和查看抖音短视频, 进行点赞,评论,转发。

GooSeeker也及时上架了抖音关键词搜索快捷采集,为写论文和搞研究的小伙伴们提供一个获取抖音数据的方便快捷的方法。

今天我们就介绍怎样使用快捷采集来获取抖音关键词搜索得到的短视频信息。


1,下载和安装GooSeeker网络爬虫

首先下载安装Gooseeker网络爬虫软件,最新版名字叫做:数据管家(增强版爬虫软件)

数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。

安装完毕,数据管家会自启动。关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。


2,运行爬虫软件

在Gooseeker数据管家,打开集搜客官网https://www.gooseeker.com 登陆爬虫,登陆会员中心(注意爬虫账号和会员中心账号一定要一致),并检查是否已经连上服务器(绿勾连接,红勾未连接)。

详细过程不重述了,可以查阅《如何使用快捷采集-以微博签到数据采集为例》的第2步。


3,登陆抖音网站

根据使用经验,采集抖音之前,需要先登录抖音网站,才能持续浏览完整内容。

在数据管家新开一个页签,在新页签打开抖音网站 https://www.douyin.com/,并登陆一个抖音账号,一般直接用手机验证码就可以。


4,进入快捷采集页面

点击数据管家左侧边栏的“快”按钮,进入快捷采集。


5,选择合适的快捷工具

根据要采集的网页,选择 类别 - 网站 - 网页。

对于抖音来说,就是点击:热门 - 抖音 - 抖音关键词搜索采集


如下图所示,可以打开示例页面看看,确保后面操作时,添加的链接和示例页面类似。或者浏览网页下方的示例数据,进一步了解选定的快捷工具是否满足要求。


6,操作步骤

6.1 获得网址

在抖音的页面上,输入要搜索的关键词,点击搜索,把浏览器地址栏的网址复制出来。比如搜索“三峡大坝”,复制出来的网址就是:https://www.douyin.com/search/%E4%B8%89%E5%B3%A1%E5%A4%A7%E5%9D%9D?source=normal_search&aid=1e0e569c-b802-4919-ab42-9a92aa2b5702&enter_from=main_page


6.2 粘贴网址,启动采集

把上一步得到的网址用Ctrl+v粘贴到快捷工具的网址输入栏,启动采集。


6.3 采集中的爬虫窗口

点击获取数据之后,数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。两个采集窗口工作时,都不能关闭。


6.4 打包下载数据

数据管家在弹出采集窗口的同时,还弹出了一个快捷采集数据管理窗口。

采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已采集”。然后打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。

如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查

1. 添加的链接是否和样本页面类似;

2. 需要提前登陆的网站,是否已经登陆;

再重新采集一遍,注意观察采集窗口,网页是否正常加载,如果网页正常加载,但仍然采集失败,请在论坛或者QQ群联系集搜客官方,我们会及时测试维护这些工具。


7. 采集到的数据

抖音关键词搜索的样例数据:

4

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (4 人)

发表评论

最新评论

评论 maomao 2022-5-16 20:37
pachong12345678: 为什么我的一直显示已停止,说我输入的网页错误
如果你要采集关键词搜索结果,那么就用关键词搜索采集工具,而且要给关键词采集工具添加搜索结果网页的网址;如果你要采集某条视频的评论,那么就要选用视频评论采集工具,而且要给视频评论采集工具添加某条视频的网址
评论 pachong12345678 2022-5-16 20:30
为什么我的一直显示已停止,说我输入的网页错误
评论 Fuller 2022-4-14 17:37
其小本: 可以采集视频封面地址吗?
视频封面地址是什么?发一个网页出来看看
评论 其小本 2022-4-14 17:20
可以采集视频封面地址吗?
评论 Fuller 2022-4-12 15:08
Janehahaha: 为什么同样的关键词,视频搜索页面能够采集成功,但是用户搜索页面却总是采集失败呢,已经尝试很多遍了┭┮﹏┭┮ ...
因为网页改版失效了所以不能采集,我已经把规则修改好了,可以再采集试试了
评论 Janehahaha 2022-4-12 13:39
为什么同样的关键词,视频搜索页面能够采集成功,但是用户搜索页面却总是采集失败呢,已经尝试很多遍了┭┮﹏┭┮
评论 小鱼干snow 2022-3-25 21:15
Fuller: 我核对了一下,实际上内容没有漏。实际上有很多重复内容,因为这个网页是瀑布流网页,每一次滚动,就会加载新的内容,那么下一次采集的时候会重复采集老内容。中 ...
原来是这样的,明白了,感谢解答~确实能够设置直接过滤更加方便,期待功能改进!
评论 Fuller 2022-3-25 09:33
我核对了一下,实际上内容没有漏。实际上有很多重复内容,因为这个网页是瀑布流网页,每一次滚动,就会加载新的内容,那么下一次采集的时候会重复采集老内容。中间有空的原因是网络太慢,内容还没有加载出来。导出结果以后,要做一次筛选,把重复的和空的数据过滤掉。

我问问开发的同事,是否可以修改一下入库规则,自动做过滤。
小鱼干snow: 主页链接:<a href="https://www.douyin.com/user/MS4wLjABAAAA8U_l6rBzmy7bcy6xOJel4v0RzoR_wfAubGPeJimN__4" target="_blank">https://www.douyin.com/user/MS4wLjABAAAA8U_l6rBzmy7bcy6xOJel4v0RzoR_wfAubGPeJimN__4</a> 爬取之前登陆抖音了
评论 小鱼干snow 2022-3-24 21:55
Fuller: 采集之前要在爬虫浏览器中登录抖音,登录了吗?我测试了一个主页,能采集到链接和点赞数。把你采集失败的主页网址发给我试试 ...
主页链接:https://www.douyin.com/user/MS4wLjABAAAA8U_l6rBzmy7bcy6xOJel4v0RzoR_wfAubGPeJimN__4
爬取之前登陆抖音了
评论 Fuller 2022-3-24 18:23
采集之前要在爬虫浏览器中登录抖音,登录了吗?我测试了一个主页,能采集到链接和点赞数。把你采集失败的主页网址发给我试试
小鱼干snow: 感谢回复,我再问一下,为什么我采集某个抖音号主页作品的时候只采集了很少一部分,而且这些采集结果里作品链接和点赞数这两项是空的。 ...
评论 小鱼干snow 2022-3-24 18:02
Fuller: 网站上没有搜索筛选功能的话,就筛选不了,要全部采集下来以后再筛选
感谢回复,我再问一下,为什么我采集某个抖音号主页作品的时候只采集了很少一部分,而且这些采集结果里作品链接和点赞数这两项是空的。
评论 Fuller 2022-3-24 10:12
网站上没有搜索筛选功能的话,就筛选不了,要全部采集下来以后再筛选
小鱼干snow: 你好,请问我要想分时间段采集某个抖音账号的作品该如何操作? 采集完各个时间段的作品之后如何进一步在这些作品中通过限定关键词精选出相应的视频呢? ...
评论 小鱼干snow 2022-3-23 19:46
你好,请问我要想分时间段采集某个抖音账号的作品该如何操作?
采集完各个时间段的作品之后如何进一步在这些作品中通过限定关键词精选出相应的视频呢?
评论 Fuller 2022-3-13 19:49
参看这个帖子的回答:https://www.gooseeker.com/doc/thread-19353-1-1.html
姥爷的绿松石: 采集网址如下:<a href="https://www.douyin.com/search/%E4%BB%8A%E5%A4%A9%E4%BD%A0%E4%BD%8E%E7%A2%B3%E4%BA%86%E5%90%97?aid=bb6c6471-ac95-4d29-b774-d29e89dc8e41&p" target="_blank">https://www.douyin.com/search/%E4%BB%8A%E5%A4%A9%E4%BD%A0%E4%BD%8E%E7%A2%B3%E4%BA%86%E5%90%97?aid=bb6c6471-ac95-4d29-b774-d29e89dc8e41&p</a> ...
评论 姥爷的绿松石 2022-3-13 19:09
姥爷的绿松石: 搜索关键词爬取相关视频,打包下载的表格里面只有一条数据还是无效信息,这是怎么回事啊
采集网址如下:https://www.douyin.com/search/%E4%BB%8A%E5%A4%A9%E4%BD%A0%E4%BD%8E%E7%A2%B3%E4%BA%86%E5%90%97?aid=bb6c6471-ac95-4d29-b774-d29e89dc8e41&publish_time=0&sort_type=0&source=normal_search&type=general
评论 姥爷的绿松石 2022-3-13 19:06
搜索关键词爬取相关视频,打包下载的表格里面只有一条数据还是无效信息,这是怎么回事啊
评论 Fuller 2022-3-7 09:05
MF19870504: 为什么抖音评论收集总是失败
你要采集的网址是什么?发给我测试一下。抖音网站总是改变,爬虫规则需要不断修改
评论 MF19870504 2022-3-6 23:15
为什么抖音评论收集总是失败
评论 wangyong 2022-2-23 12:17
因为抖音改版导致的,现在采集规则也同步更新了,现在可以继续采集了
jojo0108: 抓取视频详细信息的时候一直是抓取失败是怎么回事?即使是用实例网站也是失败
评论 jojo0108 2022-2-23 11:52
抓取视频详细信息的时候一直是抓取失败是怎么回事?即使是用实例网站也是失败

查看全部评论(29)

GMT+8, 2022-7-3 14:26