集搜客GooSeeker网络爬虫

标题: 怎样采集抖音关键词搜索后的数据 [打印本页]

作者: 王建国    时间: 2021-6-30 14:21
标题: 怎样采集抖音关键词搜索后的数据
如题,我需要采集抖音上关于“南水北调”相关的内容该怎样操作呢?



作者: wangyong    时间: 2021-6-30 14:35
本帖最后由 wangyong 于 2021-7-2 10:36 编辑

集搜客数据管家快捷采集可以直接采集抖音搜索数据,使用步骤如下:
1,安装集搜客数据管家,从左侧工具条进入快捷采集
[attach]14490[/attach]
提示:在开始采集需要之前需要先在数据管家中登录抖音,只有登录后才能采集到全部数据
选择抖音关键词搜索采集输入关键词“南水北调”在抖音上搜索后的链接:https://www.douyin.com/search/%E ... l_search&type=video
选择采集全部,点击“获取数据按钮”,然后数据管家就开始自动采集数据了
2,在快捷采集管理中看到任务状态变为“已采集”后,点击打包按钮就可以下载Excel格式的数据了
[attach]14491[/attach]
3,数据展示:
[attach]14492[/attach]




作者: tc294682552    时间: 2021-8-26 13:54
这个只能采集到第一页的数据  设置了全部也没用啊
作者: Fuller    时间: 2021-8-26 15:18
tc294682552 发表于 2021-8-26 13:54
这个只能采集到第一页的数据  设置了全部也没用啊

按照第一楼的帖子说的方法,没有采集到很多数据?

作者: Fuller    时间: 2021-8-26 15:19
要下载最新版网络爬虫软件:https://www.gooseeker.com/pro/gooseeker.html
作者: mei2177604573    时间: 2021-9-25 10:08
下了还是不行
作者: wangyong    时间: 2021-9-25 10:36
mei2177604573 发表于 2021-9-25 10:08
下了还是不行

抖音视频关键词搜索采集我们刚才测试了,可以正常采集
采集抖音有两个注意项:

1,要先在数据管家中登录抖音后再采集
2,第一次采集可能会出现滑块验证,需要手工验证一下,后面就能正常采集了

作者: mei2177604573    时间: 2021-9-25 15:06
wangyong 发表于 2021-9-25 10:36
抖音视频关键词搜索采集我们刚才测试了,可以正常采集
采集抖音有两个注意项:

好的感谢

作者: le_you    时间: 2021-11-19 14:10
打包出来不是excel格式

作者: 小蜜蜂测试161    时间: 2021-11-19 14:37
le_you 发表于 2021-11-19 14:10
打包出来不是excel格式

打包下载的文件是zip压缩文件,解压可以看到Excel

作者: le_you    时间: 2021-11-19 15:57
小蜜蜂测试161 发表于 2021-11-19 14:37
打包下载的文件是zip压缩文件,解压可以看到Excel

下载过去是图片这样的,不用解压

作者: Fuller    时间: 2021-11-19 16:06
le_you 发表于 2021-11-19 15:57
下载过去是图片这样的,不用解压

爬虫规则是你自己定义的?把规则名发出来我检查一下

作者: le_you    时间: 2021-11-20 11:03
Fuller 发表于 2021-11-19 16:06
爬虫规则是你自己定义的?把规则名发出来我检查一下

什么规则我没定义呀

作者: Fuller    时间: 2021-11-20 11:20
le_you 发表于 2021-11-20 11:03
什么规则我没定义呀

你给的截图看不出来是什么文件格式。目前我估计你用的是360浏览器或者安装了360杀毒软件,这个软件把下载过程中断了,所以,你得到的文件解压不了

作者: inky1986    时间: 2021-11-25 11:14
除了点赞数量,请问每个视频的评论数和转发数也能采集吗?我需要确认一下再付费。因为网页抖音好像采集不了转发数,谢谢
作者: gz51837844    时间: 2021-11-25 11:40
inky1986 发表于 2021-11-25 11:14
除了点赞数量,请问每个视频的评论数和转发数也能采集吗?我需要确认一下再付费。因为网页抖音好像采集不了 ...

你发个有转发数的示例链接出来看看

作者: aisaliang    时间: 2021-12-6 14:53
抓取出来的作者跟视频标题一样?
作者: Fuller    时间: 2021-12-6 15:13
aisaliang 发表于 2021-12-6 14:53
抓取出来的作者跟视频标题一样?

我们测试一下。抖音这个网站变化很快

作者: maomao    时间: 2021-12-7 18:10
aisaliang 发表于 2021-12-6 14:53
抓取出来的作者跟视频标题一样?

这个问题已经修复了,你再试试

作者: Lauren_lean    时间: 2022-1-30 13:14
抖音关键词采集出现失败(超时)怎么解决啊??在线等着急 呜呜
作者: Lauren_lean    时间: 2022-1-30 13:15
请问抖音关键词采集失败(超时)怎么解决呢?
作者: Fuller    时间: 2022-1-30 18:18
Lauren_lean 发表于 2022-1-30 13:15
请问抖音关键词采集失败(超时)怎么解决呢?

你采集的网址是什么?发出来我测试一下

作者: Fuller    时间: 2022-1-30 18:20
每一个快捷采集工具都要求用于特定的网页,可以观察这个快捷采集工具的样本页面,要结构类似的才能用。你要采集的网址是什么?发出来我测试一下
作者: WeiDiii    时间: 2022-2-2 11:46
您好,“抖音视频关键词搜索采集”功能似乎已经失效,连示例页面都无法成功爬取。
作者: wangyong    时间: 2022-2-2 16:17
WeiDiii 发表于 2022-2-2 11:46
您好,“抖音视频关键词搜索采集”功能似乎已经失效,连示例页面都无法成功爬取。 ...

因为网页改版之前的规则失效了,现在修改好了,可以继续采集了

作者: WeiDiii    时间: 2022-2-7 10:45
您好,“抖音视频关键词搜索采集”好像又无法使用了,示例页面也无法成功爬取。
作者: wangyong    时间: 2022-2-7 12:11
WeiDiii 发表于 2022-2-7 10:45
您好,“抖音视频关键词搜索采集”好像又无法使用了,示例页面也无法成功爬取。 ...

页面又发生变化了,现在修改好了,可以继续爬取

作者: WeiDiii    时间: 2022-2-27 19:30

您好,今天“抖音视频关键词搜索采集”好像又无法使用了,示例页面也无法成功爬取。
作者: WeiDiii    时间: 2022-2-27 19:31
您好,今天“抖音视频关键词搜索采集”好像又无法使用了,示例页面也无法成功爬取。
作者: WeiDiii    时间: 2022-2-27 19:31
您好,今天“抖音视频关键词搜索采集”好像又无法使用了,示例页面也无法成功爬取。
作者: WeiDiii    时间: 2022-2-27 21:16
wangyong 发表于 2022-2-7 12:11
页面又发生变化了,现在修改好了,可以继续爬取

您好,今天“抖音视频关键词搜索采集”好像又无法使用了,示例页面也无法成功爬取。


作者: 姥爷的绿松石    时间: 2022-3-13 19:14
[attach]15391[/attach] 又采集不上了,采集网址是:https://www.douyin.com/search/%E4%BD%8E%E7%A2%B3%E6%96%B0%E4%B8%96%E7%95%8C?aid=bb6c6471-ac95-4d29-b774-d29e89dc8e41&publish_time=0&sort_type=0&source=normal_search&type=general
作者: Fuller    时间: 2022-3-13 19:49
姥爷的绿松石 发表于 2022-3-13 19:14
又采集不上了,采集网址是:https://www.douyin.com/search/%E4%BD%8E%E7%A2%B3%E6%96%B0%E4%B8%96%E7%9 ...

参看这个帖子的回答:https://www.gooseeker.com/doc/thread-19353-1-1.html

作者: inky1986    时间: 2022-3-16 10:07
能不能增加抓取转发数的功能?抖音关键词搜索抓取的信息中好像没有转发数
作者: Fuller    时间: 2022-3-16 10:21
inky1986 发表于 2022-3-16 10:07
能不能增加抓取转发数的功能?抖音关键词搜索抓取的信息中好像没有转发数 ...

这个网页上没有看到有转发数。哪里是转发数?截个图我看看

作者: inky1986    时间: 2022-3-16 10:44
Fuller 发表于 2022-3-16 10:21
这个网页上没有看到有转发数。哪里是转发数?截个图我看看

确实是,我又查看了抖音的网页版界面,点赞数、评论数、收藏数都有,唯独转发数没有显示,只有一个转发的标识。对于我们搞科研的,就是需要收集这些用户回馈数据,哈哈。谢谢回复。
作者: rrract    时间: 2022-4-5 14:31
你好,请问可以按照视频点赞量排序抓取视频信息吗?我看抖音的界面有个筛选的选项

作者: Fuller    时间: 2022-4-5 17:03
rrract 发表于 2022-4-5 14:31
你好,请问可以按照视频点赞量排序抓取视频信息吗?我看抖音的界面有个筛选的选项
...

在抖音网页上,搜索一个关键词,然后设置筛选条件,把地址输入栏中的网址拷贝出来,添加到快捷采集工具,就会按照你设置的条件采集数据

作者: 范祖云    时间: 2022-4-17 22:42
只有点赞数能抓到吗,这个快捷抓取里能翻页抓取和层级抓取吗?自定义规则的话模拟点击的那种教程有没有啊?而且这个新版的,我之前抓微博和哔哩哔哩的数据的时候我设置了翻页区和翻页记号但怎么都翻不了页,只能抓一页的数据,是因为反爬吗?我真的很难,一页一页操作,要疯了,问题有点多,希望能得到回复,真的很需要谢谢谢谢
作者: Fuller    时间: 2022-4-18 09:19
范祖云 发表于 2022-4-17 22:42
只有点赞数能抓到吗,这个快捷抓取里能翻页抓取和层级抓取吗?自定义规则的话模拟点击的那种教程有没有啊? ...

网页上有的都能抓到,除了点赞以外,你还想抓取哪些内容。

快捷采集任务如果有翻页,肯定都能翻页。快捷采集任务很多都是上下层级关系,用上级规则采集数据后,在导出的excel表格中将下级的网址拷贝出来,手工加入下级任务。

如果是以前做的规则,很可能网页改版导致翻页失效。那么加载规则,修改一下失效部分,另存规则。加载和另存操作使用最新版数据管家软件。其实数据管家和老版爬虫的规则是互通的。翻页失败不是软件问题,而是网页改版了。

在教程页面上,从左栏的目录中找高级教程,有模拟点击教程:https://www.gooseeker.com/tuto/tutorial.html

作者: 范祖云    时间: 2022-4-18 10:09
Fuller 发表于 2022-4-18 09:19
网页上有的都能抓到,除了点赞以外,你还想抓取哪些内容。

快捷采集任务如果有翻页,肯定都能翻页。快捷 ...

好的!我有点悟了,还有一个小问题,我用快捷采集来抓抖音关键词的数据,好像只有目前显示出来的能抓到,它不能自动加载后面的是吗???

作者: Fuller    时间: 2022-4-18 10:41
范祖云 发表于 2022-4-18 10:09
好的!我有点悟了,还有一个小问题,我用快捷采集来抓抖音关键词的数据,好像只有目前显示出来的能抓到, ...

这是个瀑布流网页,往下滚动就会加载出来更多内容,网页就会越来越长。如果是自己定义规则,那么要使用连续动作的滚屏动作,每滚一次就抓取一次。因为网页长到一定程度就显示不下了,所以,能抓取到的是有限制的。

作者: 范祖云    时间: 2022-4-18 12:08
Fuller 发表于 2022-4-18 10:41
这是个瀑布流网页,往下滚动就会加载出来更多内容,网页就会越来越长。如果是自己定义规则,那么要使用连 ...

我发现抓取页数那里设置一下也可以抓到后面的了。我还想问一下,我想抓作者的一些个人数据比如粉丝数、获赞数这种,但是用那个快捷工具里面个人主页的那个,它还会把作品的数据也抓了,但我不需要那个,有没有可以设置的地方啊??

作者: Fuller    时间: 2022-4-18 15:15
范祖云 发表于 2022-4-18 12:08
我发现抓取页数那里设置一下也可以抓到后面的了。我还想问一下,我想抓作者的一些个人数据比如粉丝数、获 ...

规则做好了就没法通过设置过滤掉。要新做规则。这需要你用数据管家软件定义采集规则,只采集想要的信息

作者: 范祖云    时间: 2022-4-18 16:36
Fuller 发表于 2022-4-18 15:15
规则做好了就没法通过设置过滤掉。要新做规则。这需要你用数据管家软件定义采集规则,只采集想要的信息
...

好的,了解了,谢谢回复!非常感谢
作者: Jelenazhou_163    时间: 2022-5-17 18:48
您好,“抖音视频关键词搜索采集”好像无法使用,示例页面也无法成功爬取。
作者: Fuller    时间: 2022-5-17 20:01
Jelenazhou_163 发表于 2022-5-17 18:48
您好,“抖音视频关键词搜索采集”好像无法使用,示例页面也无法成功爬取。 ...

我测试了,采集没有问题。采集之前要在爬虫浏览器中登录抖音,另外,采集的时候,爬虫浏览器的窗口要尽量放大。最后,要确保网络比较快,不要开360,否则会大大拖慢速度

作者: Season_66    时间: 2022-10-21 00:05
请问为什么爬取下来的信息,作者那栏的内容和视频标题一样?
作者: Season_66    时间: 2022-10-21 00:09
maomao 发表于 2021-12-7 18:10
这个问题已经修复了,你再试试

现在爬的数据又作者和视频标题一样了

作者: gz51837844    时间: 2022-10-21 09:37
Season_66 发表于 2022-10-21 00:09
现在爬的数据又作者和视频标题一样了

抖音关键词搜索采集我们刚才做了更新,你可以再试试

作者: Season_66    时间: 2022-10-21 10:35
gz51837844 发表于 2022-10-21 09:37
抖音关键词搜索采集我们刚才做了更新,你可以再试试

好的,已经正常了,谢谢!!

作者: 亚托克斯    时间: 2023-3-20 18:47
抖音视频抓取不了,总是抓取出错,示例视频也是一样
作者: Fuller    时间: 2023-3-21 09:23
亚托克斯 发表于 2023-3-20 18:47
抖音视频抓取不了,总是抓取出错,示例视频也是一样

是哪个抖音工具,抖音视频关键词搜索采集吗?

作者: 亚托克斯    时间: 2023-3-21 12:38
Fuller 发表于 2023-3-21 09:23
是哪个抖音工具,抖音视频关键词搜索采集吗?

对的

作者: Fuller    时间: 2023-3-22 09:11
亚托克斯 发表于 2023-3-21 12:38
对的

我们测试了抖音视频关键词搜索采集工具,是正常的,可以采集。
采集之前,要在数据管家打开https://www.douyin.com/  并且登录一个douyin账号。

作者: 18618403803    时间: 2023-12-2 14:57
评论内容怎么采集,总是抓取出错
作者: wangyong    时间: 2023-12-7 17:35
18618403803 发表于 2023-12-2 14:57
评论内容怎么采集,总是抓取出错

可以再添加任务试试,目前是可以采集的



作者: 欣想事成    时间: 2024-1-9 19:13
求问!无法抓取数据并显示已停止、抓取出错是怎么回事?以下是我需要抓取数据的网站
https://www.douyin.com/search/%E4%B8%89%E4%BA%9A%E6%97%85%E6%B8%B8?publish_time=182&sort_type=1&source=tab_search&type=general
作者: Fuller    时间: 2024-1-9 21:07
欣想事成 发表于 2024-1-9 19:13
求问!无法抓取数据并显示已停止、抓取出错是怎么回事?以下是我需要抓取数据的网站
https://www.douyin.c ...

抖音关键词搜索采集快捷工具添加的链接类似这样:
[attach]16042[/attach]

作者: laowangwaimaidian    时间: 2024-5-19 16:13
目前抖音关键词搜索好像又用不了了
作者: Fuller    时间: 2024-5-19 17:50
laowangwaimaidian 发表于 2024-5-19 16:13
目前抖音关键词搜索好像又用不了了

添加的链接对吗?按楼上的方法得到的链接?
作者: laowangwaimaidian    时间: 2024-5-20 15:45
Fuller 发表于 2024-5-19 17:50
添加的链接对吗?按楼上的方法得到的链接?

现在能够采集了,只是数据量过少,只有几十条

作者: Fuller    时间: 2024-5-20 17:38
laowangwaimaidian 发表于 2024-5-20 15:45
现在能够采集了,只是数据量过少,只有几十条

采集之前,要在数据管家登陆抖音。
添加了采集连接后,要选择页数,可以选择“全部”


[attach]16162[/attach]

作者: jfy0611    时间: 2024-7-10 09:16
请问抖音现在是ban账号的吗,上午用的规则采集了关键词搜索结果,下午想用搜索结果采集详情就一直失败。
作者: 马涌河畔    时间: 2024-7-10 14:59
jfy0611 发表于 2024-7-10 09:16
请问抖音现在是ban账号的吗,上午用的规则采集了关键词搜索结果,下午想用搜索结果采集详情就一直失败。 ...

1. 采集的时候可以观察下数据管家的采集窗口: 详情页面有没有正常加载出来, 有没有出验证码之类的
2. 如果页面正常加载出来了,也没有出验证码,那可能详情页面结构改版了:这种情况发一条失败的详情网址出来,我们会针对性的做测试和升级快捷采集

作者: jfy0611    时间: 2024-7-10 17:52
本帖最后由 jfy0611 于 2024-7-10 17:57 编辑
马涌河畔 发表于 2024-7-10 14:59
1. 采集的时候可以观察下数据管家的采集窗口: 详情页面有没有正常加载出来, 有没有出验证码之类的
2. 如 ...

正常加载详情也,没有验证码。昨天还能正常抓去数据的。
用视频详情或者搜索结果抓取的视频地址,用来抓取视频评论也是一样,一直失败。月初还能正常走完抓搜索结果——抓详情——抓评论的整个流程

作者: Fuller    时间: 2024-7-10 22:13
jfy0611 发表于 2024-7-10 09:16
请问抖音现在是ban账号的吗,上午用的规则采集了关键词搜索结果,下午想用搜索结果采集详情就一直失败。 ...

douyin详情快捷工具维护了,你再试试

作者: jfy0611    时间: 2024-7-11 13:11
Fuller 发表于 2024-7-10 22:13
douyin详情快捷工具维护了,你再试试

感谢,除了个别网址还会报错,已经可以使用

作者: moer_111    时间: 2024-7-24 10:35
采集数据失败,显示:抓取失败(超时),抓取规则不合适或者超时时间设置太短。请问如何解决
作者: Fuller    时间: 2024-7-24 15:46
moer_111 发表于 2024-7-24 10:35
采集数据失败,显示:抓取失败(超时),抓取规则不合适或者超时时间设置太短。请问如何解决 ...

添加的链接和样例页面类似吗?

作者: moer_111    时间: 2024-7-25 14:59
Fuller 发表于 2024-7-24 15:46
添加的链接和样例页面类似吗?

已经调整好,可以正常采集了,谢谢回复





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2