快捷导航
13 366

微博签到数据

数据爬呀爬 于 2019-11-9 19:01 发表 [复制链接]
我想知道集搜客软件在登录时总是显示没有激活是怎么回事?还有就是在提取微博签到数据的时候,网页上只显示用户的昵称、地址和简介,所以感觉提取不到签到的具体数据,例如签到地址、用户注册地址、经纬度等内容,这该怎么办呢?
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2019-11-11 18:25

Fuller 管理员 发表于 2019-11-9 20:26:43 | 显示全部楼层
我查了后台,你的账号状态是好的。输入密码的时候要注意大小写要严格一致。

要采集的网页发一个出来我看看,我测试一下看看是否能采集到你想要的数据
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-11-10 18:13:33 | 显示全部楼层
不好意思,刚刚才看到您的消息,其实就是一个微博网页https://weibo.com/p/100101B2094653D46CA2FF4592?from=page_100101&mod=home,我需要的是微博签到数据
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-11-10 18:15:10 | 显示全部楼层
比如说我需要南昌市国庆7天各个旅游景区的签到数据,这样的话怎么才能尽可能准确的采集到所有数据呢
举报 使用道具
Fuller 管理员 发表于 2019-11-10 21:11:44 | 显示全部楼层
数据爬呀爬 发表于 2019-11-10 18:15
比如说我需要南昌市国庆7天各个旅游景区的签到数据,这样的话怎么才能尽可能准确的采集到所有数据呢 ...

因为这些都是知名景点,这些景点的经纬度可以使用别的方法获得。那么采集微博的主要目的只剩下微博的内容和博文的作者信息。可以先针对签到列表采集所有签到博文内容,然后深入到每个博主的网页,采集他的相关信息。

采集签到列表需要自己定义规则,采集博主信息用现成的规则就行:https://www.gooseeker.com/land/weibo.html

举报 使用道具
数据爬呀爬 初级会员 发表于 2019-11-11 10:29:09 | 显示全部楼层
Fuller 发表于 2019-11-10 21:11
因为这些都是知名景点,这些景点的经纬度可以使用别的方法获得。那么采集微博的主要目的只剩下微博的内容 ...

好的,谢谢。还有问题就是如果需要的采集的博主网址较多,怎么比较方便采集呢?而且在使用微博采集工具箱的时候,经常出现打印机显示采集成功,但是工具箱那里还显示采集中,并且也打包不了的情况;就算可以打包的话,数据下载之后也找不到是为什么呢
举报 使用道具
Fuller 管理员 发表于 2019-11-11 10:35:30 | 显示全部楼层
数据爬呀爬 发表于 2019-11-11 10:29
好的,谢谢。还有问题就是如果需要的采集的博主网址较多,怎么比较方便采集呢?而且在使用微博采集工具箱 ...

在采集过程中,会自动启动两个爬虫窗口,一个用于采集数据,一个用于打包,那个用于打包的看起来是空白的内容,但是最好不要关掉。那个用于采集的窗口应该放大到最大。虽然上面也可以覆盖其他窗口,但是它要最大。

打包需要一些时间,一般采集完成后需要几分钟时间,这个时候就会导出不了结果。

另外,爬虫浏览器有个bug,如果创建的采集任务名中含有空格,下载打包结果的时候会出现问题,这时候应该使用其他浏览器下载,比如,chrome
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-11-11 10:56:00 | 显示全部楼层
Fuller 发表于 2019-11-11 10:35
在采集过程中,会自动启动两个爬虫窗口,一个用于采集数据,一个用于打包,那个用于打包的看起来是空白的 ...

好的,那我再试试看。那关于博主主页信息的采集的话,我需要先把相关博主主页的网址全部整理出来再添加进去采集对吧?我刚才试了一下,采集了四个博主的信息,但是下载之后也不是excel文件,而且我登录集搜客会员中心的话也没有出现这个任务,所以没法导出数据呢
举报 使用道具
Fuller 管理员 发表于 2019-11-11 14:43:33 | 显示全部楼层
数据爬呀爬 发表于 2019-11-11 10:56
好的,那我再试试看。那关于博主主页信息的采集的话,我需要先把相关博主主页的网址全部整理出来再添加进 ...

微博采集的总的入口在这里:https://www.gooseeker.com/land/weibo.html
从这里进入到某个微博采集系统,可以导出数据:先打包,再下载
微博20191111144250.png
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-11-11 15:34:21 | 显示全部楼层
Fuller 发表于 2019-11-11 14:43
微博采集的总的入口在这里:https://www.gooseeker.com/land/weibo.html
从这里进入到某个微博采集系统, ...

我就是从微博总采集入口进去的,然后使用了微博博主主页内容进行采集,但是采集完了数据还是xml格式,也没办法在数据管理里面找到这一采集任务
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 网络爬虫采集html片段时无法生成结果文件怎
  • 网络爬虫占满了c盘怎么清理
  • 为什么采集速卖通用户评论翻页不了
  • 多级规则执行连续动作而输入动作不在第一级
  • 特征工程入门介绍

热门用户

GMT+8, 2019-12-14 13:09