如题主题名:流浪地球zhx0

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-2-26 15:05

wangyong 版主 发表于 2021-2-26 15:05:34 | 显示全部楼层
本帖最后由 wangyong 于 2021-2-26 15:12 编辑

1,下载新版集搜客数据管家,从左侧工具条进入快捷采集
数据管家-豆瓣.png
2,找到社交分类下豆瓣短评采集入口,输入要采集的作品链接,启动采集
例如要采集《唐人街探案3》影评:https://movie.douban.com/subject/27619748/comments?status=P
快捷采集上的规则都是集搜客官方开发好了的,可以正常采集到短评完整内容和翻页
豆瓣数据示例.png
数据采集完成,可以继续用集搜客文本分析做词云图、情感分析、社会网络关系分析。
唐人街探案三词云图.png
词云图
唐人街探案三网络图.png
社会网络关系图
情感分析.png
情感分析
举报 使用道具
Fuller 管理员 发表于 2019-4-13 16:49:20 | 显示全部楼层
我测试了,运行挺稳定,如果你的网络比较慢,可以调一下DS打数机,让抓取速度慢一些。这样调
1,DS打数机菜单 配置-》滚屏参数,把滚屏次数设置成2, >0的数字就开始滚屏,越大滚的越多
2,DS打数机菜单 配置-》延迟抓取,设置成5秒,每次抓取前都等5秒,防止网页还没有加载出来就抓取
举报 使用道具
Fuller 管理员 发表于 2019-4-13 16:51:19 | 显示全部楼层
我能采集11页,再就受限了
翻页限制20190413165030.png
举报 使用道具
maomao 论坛元老 发表于 2019-4-13 17:08:19 | 显示全部楼层
在GS浏览器登录豆瓣,可以爬得更多
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:48