本帖最后由 ippfon 于 2016-9-22 09:25 编辑

Python博主采集工具

此工具为64位windows系统可执行程序,简单易用,无需安装
双击即可执行

1、输入需采集的博主主页链接,初始界面如下:



2、输入微博账号密码,仅第一次需要(缘由:微博翻页需要有账号已登录),操作界面如下:




3、查看微博登录是否成功,程序会自动启动火狐浏览器访问微博登录页进行模拟登录,登录成功后开始加载需采集的博主链接。若当前链接采集完成后,可选择继续添加博主网址进行采集操作,也可输入“exit“  退出采集工具,操作界面如下



4、查看采集结果,采集结果存储目录为exe同级目录result文件夹下,如下图:


常见问题
1、若微博账号或密码填写错误导致模拟登录失败,请根据提示重新填写。
2、由于微博本身的限制,浏览器自动翻页到30页以上时可能无法继续访问下一页,导致采集程序提前结束,此时,可
重新输入翻页中断时对应的网页链接继续采集
3、第一次执行可能会碰到windows提示如下:


点击“更多信息->仍要运行”即可。

下载入口




举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-1-4 20:44

沙发
elegantcoin 中级会员 发表于 2016-9-6 10:22:31 | 只看该作者
那登录密码存在泄漏风险吗?
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-6 10:38:56 | 只看该作者
elegantcoin 发表于 2016-9-6 10:22
那登录密码存在泄漏风险吗?

存在你的电脑上,不会往外发,不用担心泄漏。

GooSeeker的所有版本的爬虫,都是把隐私信息存在本地的(不包括自动登录功能),所以,很安全。
举报 使用道具
地板
yimihuakai 初级会员 发表于 2017-1-4 18:50:07 | 只看该作者
这个工具安装成功后提示输入网址,用户名,密码,命令窗口提示准备登录网站,随后自动打开火狐浏览器,但是接下来命令窗口自动消失,不知道是什么原因
举报 使用道具
5#
Fuller 管理员 发表于 2017-1-4 19:01:06 | 只看该作者
yimihuakai 发表于 2017-1-4 18:50
这个工具安装成功后提示输入网址,用户名,密码,命令窗口提示准备登录网站,随后自动打开火狐浏览器,但是 ...

我建议你使用微博采集工具箱,功能更加全面:http://www.gooseeker.com/land/weibo.html
举报 使用道具
6#
yimihuakai 初级会员 发表于 2017-1-4 19:48:35 | 只看该作者
Fuller 发表于 2017-1-4 19:01
我建议你使用微博采集工具箱,功能更加全面:http://www.gooseeker.com/land/weibo.html
...

我用过,是很好用,但是我积分不够,穷学生,没钱买那么多积分~
举报 使用道具
7#
Fuller 管理员 发表于 2017-1-4 20:17:21 | 只看该作者
yimihuakai 发表于 2017-1-4 19:48
我用过,是很好用,但是我积分不够,穷学生,没钱买那么多积分~

这个工具比较简单,还是用微博工具箱吧,因为这个工具就要下架了,现在我们主推数据DIY,下载这个工具的积分退还给你了
举报 使用道具
8#
yimihuakai 初级会员 发表于 2017-1-4 20:44:36 | 只看该作者
Fuller 发表于 2017-1-4 20:17
这个工具比较简单,还是用微博工具箱吧,因为这个工具就要下架了,现在我们主推数据DIY,下载这个工具的 ...

恩呢,好的,谢谢您~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 13:25