我想做一个行业分析报告,选定了20几个微信公众号,是行业中的知名公众号,我想把他们的历史文章采集下来,使用文本分析和内容分析的一些方法,对话题历史走向等方面做一些分析研究。
但是,我在集搜客快捷采集工具那里没有看到采集微信公众号历史文章的工具,集搜客网络爬虫采集不了吗?


举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2020-9-8 10:55

沙发
Fuller 管理员 发表于 2020-9-7 15:50:46 | 只看该作者
在集搜客论坛上有那么多讨论数据抽样的,你应该意识到,“量”不是决定性的,而是要根据研究目的,研究问题,科学地收集数据和进行处理
举报 使用道具
板凳
发誓学好内容分析 金牌会员 发表于 2020-9-7 15:51:51 | 只看该作者
Fuller 发表于 2020-9-7 15:50
在集搜客论坛上有那么多讨论数据抽样的,你应该意识到,“量”不是决定性的,而是要根据研究目的,研究问题 ...

不会吧?现在是大数据和ai时代,不是说数据才是最重要的?
举报 使用道具
地板
Fuller 管理员 发表于 2020-9-7 15:59:56 | 只看该作者
发誓学好内容分析 发表于 2020-9-7 15:51
不会吧?现在是大数据和ai时代,不是说数据才是最重要的?

其实集搜客也会不断地使用微信公众号的文章内容做一些行业分析,比如,在集搜客分词和文本分析软件的协助下,以词作为分析单元,做一些内容分析工作。更多时候,是协助一些专业的商业分析机构和团队,协助他们处理微信公众号文章内容。“数量上算不上大数据”向来不是问题。

实际上,我们确实也是用手工做分拣和抽样的,抽样出来具体的微信文章的url,然后在交给网络爬虫去采集网页,存成excel。在一个研究活动中,不需要很大数量。

我们经过了这些年的大数据浪潮,现在实际上是反思阶段,我看到你也是在内容分析方向上工作,“大数据”的正确用法是怎样的应该有体会,而科学地处理“小数据”却是更加关键的,对内容进行量化统计、进行含义阐释等等,真正做到从文本中发现意义。
举报 使用道具
5#
ftest2020 新手上路 发表于 2020-9-7 16:39:27 | 只看该作者
用爬虫也可以抓, 步骤如下:
1. 安装并开启抓包工具Fiddler, 开启https抓包: Options->HTTPS-Decrpt HTTPs Traffic


举报 使用道具
6#
ftest2020 新手上路 发表于 2020-9-7 16:43:49 | 只看该作者
2, 运行微信客户端windows版, 进入要查看的公众号,点击“查看历史消息”, 进入历史文章页面


举报 使用道具
7#
ftest2020 新手上路 发表于 2020-9-7 16:47:18 | 只看该作者
3. 在历史文章页面, 鼠标往下滚轮, 这时候在fidder的Live Traffic界面会有大量的消息,找到类似https://mp.weixin.qq.com/mp/profile_ext?action=getmsg 的消息, 把GET后面完整的消息复制出来



举报 使用道具
8#
ftest2020 新手上路 发表于 2020-9-7 16:51:10 | 只看该作者
4,根据上面取得的请求url,通过给offset参数赋予不同的值,可以构造取更多数据的网址。
这些网址就是取文章列表的网址, 可以用爬虫来做规则采集
5,第4步采集到的文章列表信息里, 有文章的title和详情网址, 可以继续。。。



举报 使用道具
9#
Fuller 管理员 发表于 2020-9-7 17:04:45 | 只看该作者
ftest2020 发表于 2020-9-7 16:51
4,根据上面取得的请求url,通过给offset参数赋予不同的值,可以构造取更多数据的网址。
这些网址就是取文 ...

你还有这个技巧,不会被反爬吗?
举报 使用道具
10#
Fuller 管理员 发表于 2020-9-7 17:06:09 | 只看该作者
这个fiddler这么神奇?能分析https的消息?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 16:24