集搜客网络爬虫软件能采集微信公众号的历史文章吗？

发誓学好内容分析

我想做一个行业分析报告，选定了20几个微信公众号，是行业中的知名公众号，我想把他们的历史文章采集下来，使用文本分析和内容分析的一些方法，对话题历史走向等方面做一些分析研究。
但是，我在集搜客快捷采集工具那里没有看到采集微信公众号历史文章的工具，集搜客网络爬虫采集不了吗？

Fuller · 发表于 2020-9-7 15:50:46

在集搜客论坛上有那么多讨论数据抽样的，你应该意识到，“量”不是决定性的，而是要根据研究目的，研究问题，科学地收集数据和进行处理

发誓学好内容分析 · 发表于 2020-9-7 15:51:51

Fuller 发表于 2020-9-7 15:50
在集搜客论坛上有那么多讨论数据抽样的，你应该意识到，“量”不是决定性的，而是要根据研究目的，研究问题 ...

不会吧？现在是大数据和ai时代，不是说数据才是最重要的？

Fuller · 发表于 2020-9-7 15:59:56

发誓学好内容分析发表于 2020-9-7 15:51
不会吧？现在是大数据和ai时代，不是说数据才是最重要的？

其实集搜客也会不断地使用微信公众号的文章内容做一些行业分析，比如，在集搜客分词和文本分析软件的协助下，以词作为分析单元，做一些内容分析工作。更多时候，是协助一些专业的商业分析机构和团队，协助他们处理微信公众号文章内容。“数量上算不上大数据”向来不是问题。

实际上，我们确实也是用手工做分拣和抽样的，抽样出来具体的微信文章的url，然后在交给网络爬虫去采集网页，存成excel。在一个研究活动中，不需要很大数量。

我们经过了这些年的大数据浪潮，现在实际上是反思阶段，我看到你也是在内容分析方向上工作，“大数据”的正确用法是怎样的应该有体会，而科学地处理“小数据”却是更加关键的，对内容进行量化统计、进行含义阐释等等，真正做到从文本中发现意义。

ftest2020 · 发表于 2020-9-7 16:39:27

用爬虫也可以抓，步骤如下：
1. 安装并开启抓包工具Fiddler，开启https抓包: Options->HTTPS-Decrpt HTTPs Traffic

ftest2020 · 发表于 2020-9-7 16:43:49

2, 运行微信客户端windows版，进入要查看的公众号，点击“查看历史消息”，进入历史文章页面

ftest2020 · 发表于 2020-9-7 16:47:18

3. 在历史文章页面，鼠标往下滚轮，这时候在fidder的Live Traffic界面会有大量的消息，找到类似https://mp.weixin.qq.com/mp/profile_ext?action=getmsg 的消息，把GET后面完整的消息复制出来

ftest2020 · 发表于 2020-9-7 16:51:10

4，根据上面取得的请求url，通过给offset参数赋予不同的值，可以构造取更多数据的网址。
这些网址就是取文章列表的网址，可以用爬虫来做规则采集
5，第4步采集到的文章列表信息里，有文章的title和详情网址，可以继续。。。

Fuller · 发表于 2020-9-7 17:04:45

ftest2020 发表于 2020-9-7 16:51
4，根据上面取得的请求url，通过给offset参数赋予不同的值，可以构造取更多数据的网址。
这些网址就是取文 ...

你还有这个技巧，不会被反爬吗？

Fuller · 发表于 2020-9-7 17:06:09

这个fiddler这么神奇？能分析https的消息？

集搜客网络爬虫软件能采集微信公众号的历史文章吗？

共 14 个关于本帖的回复最后回复于 2020-9-8 10:55

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

集搜客网络爬虫软件能采集微信公众号的历史文章吗？

共 14 个关于本帖的回复 最后回复于 2020-9-8 10:55

推荐板块

精彩推荐

热门话题

热门用户

共 14 个关于本帖的回复最后回复于 2020-9-8 10:55