本帖最后由 ym 于 2015-9-23 16:44 编辑

问1:我想获取转发列表。。。。有同学做过么。。。因为这个没有链接。。具体用MetaStudio怎么定义规则呢


答1:点击“查看所有xxx转发”就能弹出转发列表的单独网页,例如http://weibo.com/1803526210/CBQ5n554C?type=repost,再对这个网页做规则就能采下来


问2:我刚也发现了,但是我又想了一个问题。。。。这样的话就只能一条一条的抓,就是一次只能抓一条微博的转发列表
这个能做二级分页抓取么。。。

答2:规则里做样例复制和翻页,就能自动采集翻页采集列表上每一个转发记录

问3:整个转发列表是可以做翻页采集的,比如说我现在有的是微博列表,我要去采集微博列表中所有被转发微博的转发列表。。。。。

答3:做两级规则,第一级规则把微博列表中所有转发微博的转发列表的网址采集下来,作为第二级的规则的线索,第二级规则去采微博的转发列表

问4:过程我明白,第二级我已经弄好了,但是第一级采集网址不好采吧

答4:每条微博的发表时间里是包含第二级的网址

你可以采集微博列表中每条微博的发表时间中的@href,这就是每条微博的单独网址,通过这个网址进入第二级网页,第二级网页进入的是评论列表,你再做个模拟点击,跳到转发列表,这是第三级别页面,第三级才是抓转发列表的。

问5:也就是说只能先抓取评论列表的入口地址

答5:是的

问6:嗯。第二级网页的模拟点击是怎么弄呢

答6:模拟点击教程:http://www.gooseeker.com/cn/node ... /simulateclick.html


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2015-9-23 16:43

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-23 12:18