541#
啦啦公主 新手上路 发表于 2017-11-18 15:32:30 | 只看该作者
集微库 - 微博博主详细资料采集工具:有看到打数机窗口开始采集,但是数据全部都是无。请问“微博博主详细资料”的样本页面是什么?
举报 使用道具
542#
Fuller 管理员 发表于 2017-11-18 16:11:13 | 只看该作者
啦啦公主 发表于 2017-11-18 15:32
集微库 - 微博博主详细资料采集工具:有看到打数机窗口开始采集,但是数据全部都是无。请问“微博博主详细 ...

进入一个微博博主页面,比如,这个:https://weibo.com/u/2816792060?r ... ckname&is_all=1

请注意看,这个网址的格式,u/xxxxx一串数字,这是一个个人页面,分成个人和机构两种

你在这个工具中就是输入这类网址,个人和机构要分开输入,在工具箱的界面上有两个tab,分别对应他们。

DS打数机采集他们的时候,会进入这个页面,你会看到左栏有这样的栏目

DS打数机会自动点击下面的“查看更多”,进入到会员详情信息页面。这个工具就是采集会员详情信息的
举报 使用道具
543#
啦啦公主 新手上路 发表于 2017-11-18 16:36:26 | 只看该作者
Fuller 发表于 2017-11-18 16:11
进入一个微博博主页面,比如,这个:https://weibo.com/u/2816792060?refer_flag=0000015010_&from=feed& ...

是的,我看到打数机进到那个页面了。我用你给的链接进行操作的,可是结果还是显示无。急需这项爬虫功能,请多多指教。

微信图片_20171118163247.png (12.01 KB, 下载次数: 437)

微信图片_20171118163247.png
举报 使用道具
544#
maomao 论坛元老 发表于 2017-11-18 17:07:39 | 只看该作者
啦啦公主 发表于 2017-11-18 16:36
是的,我看到打数机进到那个页面了。我用你给的链接进行操作的,可是结果还是显示无。急需这项爬虫功能, ...

我测试了一下,确实有些问题,我赶快让开发人员解决一下
举报 使用道具
545#
shenzhenwan10 金牌会员 发表于 2017-11-19 12:19:09 | 只看该作者
本帖最后由 shenzhenwan10 于 2017-11-19 17:34 编辑
啦啦公主 发表于 2017-11-18 16:36
是的,我看到打数机进到那个页面了。我用你给的链接进行操作的,可是结果还是显示无。急需这项爬虫功能, ...

您反应的问题已经得到修正,您可以再试试。
问题的原因是:如果添加的网址是https开头的,在对博主详细信息进行数据清洗时有bug

举报 使用道具
546#
_222333_ 新手上路 发表于 2017-11-19 17:13:28 | 只看该作者
你好,请问使用 微博关键词搜索采集工具 下载的数据没有“展开全文”后面的内容,这个问题要怎么解决啊
举报 使用道具
547#
shenzhenwan10 金牌会员 发表于 2017-11-19 17:19:34 | 只看该作者
_222333_ 发表于 2017-11-19 17:13
你好,请问使用 微博关键词搜索采集工具 下载的数据没有“展开全文”后面的内容,这个问题要怎么解决啊:diz ...

是什么样的页面? 你发个网址我们研究下

举报 使用道具
548#
_222333_ 新手上路 发表于 2017-11-19 18:00:06 | 只看该作者
shenzhenwan10 发表于 2017-11-19 17:19
是什么样的页面? 你发个网址我们研究下


是这样的,我是用微博关键词“社会公正”做搜索
网址:http://s.weibo.com/weibo/%25E7%25A4%25BE%25E4%25BC%259A%25E5%2585%25AC%25E6%25AD%25A3?topnav=1&wvr=6&b=1
展开全文后面的内容都没有





举报 使用道具
549#
maomao 论坛元老 发表于 2017-11-19 20:54:52 | 只看该作者
_222333_ 发表于 2017-11-19 18:00
是这样的,我是用微博关键词“社会公正”做搜索
网址:http://s.weibo.com/weibo/%25E7%25A4%25BE%25E4%2 ...

这个工具不点击展开全文。要采集全文的话,需要自己定义规则
举报 使用道具
550#
_222333_ 新手上路 发表于 2017-11-19 22:38:22 | 只看该作者
maomao 发表于 2017-11-19 20:54
这个工具不点击展开全文。要采集全文的话,需要自己定义规则

就是自己没定义出来T_T
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 03:25