为什么只能采集所有或者第一页,能否设置采集页数
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2021-4-5 12:11

沙发
Fuller 管理员 发表于 2021-4-5 10:12:47 | 只看该作者
你自己定义的规则?还是使用微博博主主页采集工具:https://www.gooseeker.com/res/softdetail_3.html

是否在爬虫浏览器中登录了微博?
举报 使用道具
板凳
lixiang7274 初级会员 发表于 2021-4-5 10:15:36 | 只看该作者
Fuller 发表于 2021-4-5 10:12
你自己定义的规则?还是使用微博博主主页采集工具:https://www.gooseeker.com/res/softdetail_3.html

是 ...

采用的微博主页采集工具 已经登陆微博,但不太清楚第二个选项是什么意思,请问用主页采集工具无法定制翻页页数吗

image.png (13.64 KB, 下载次数: 678)

image.png
举报 使用道具
地板
Fuller 管理员 发表于 2021-4-5 11:41:32 | 只看该作者
lixiang7274 发表于 2021-4-5 10:15
采用的微博主页采集工具 已经登陆微博,但不太清楚第二个选项是什么意思,请问用主页采集工具无法定制翻 ...

比较大的博主,进入主页以后,一般显示3页左右最新的或者热的博文,那么就用第二项采集这些内容

如果要采集所有的博文,那么就用第一项。

在运行爬虫的时候,界面要尽量放大到最大。另外,你的电脑有没有安装360?这类软件会把网络搞得很慢。另外,网速要比较快才行
举报 使用道具
5#
lixiang7274 初级会员 发表于 2021-4-5 11:56:55 | 只看该作者
Fuller 发表于 2021-4-5 11:41
比较大的博主,进入主页以后,一般显示3页左右最新的或者热的博文,那么就用第二项采集这些内容

如果要 ...

也就是选择第二项的话就是爬前三页内容是吗 请问“界面要尽量放大到最大”目的是什么吗 是为了爬虫速度吗 还是为了一页有更多的信息。
以及如果采用自定义diy爬博主发布的微博

那么这个页数是否就是我可以选择的微博主页页数呢

举报 使用道具
6#
Fuller 管理员 发表于 2021-4-5 12:11:08 | 只看该作者
lixiang7274 发表于 2021-4-5 11:56
也就是选择第二项的话就是爬前三页内容是吗 请问“界面要尽量放大到最大”目的是什么吗 是为了爬虫速度吗 ...

把浏览器放大到最大,一屏就会显示尽量多的内容,这样采集会更快。

用快捷采集那个,可以设定翻页次数。

无论用快捷采集那个还是用微博采集工具箱的那个,都要找对要采集的微博网址。在微博博主网页上,有很多选项,如下图,选不同选项,得到的网址就不一样,看到的微博内容也不一样。要找到你确实想采集的那部分内容对应的网址
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 06:06