资讯

微博内容分词后怎样用Jupyter Notebook画词云图
微博内容分词后怎样用Jupyter Notebook画词云图
词云图是文本数据的一种可视化展现方式,它一般是由文本数据中提取的词汇组成某些彩色图形。词云图的核心价值在于以高频关键词的可视化表达来传达大量文本数据背后的有价值的信息 ...

2021-5-31 11:37

如何使用微博工具箱-以采集博主主页内容为例
如何使用微博工具箱-以采集博主主页内容为例
集搜客有成熟的微博工具箱,可以采集微博的关键词搜索,博主主页内容,博主信息,微博话题,博文转发/评论等等。不需要做采集规则,输入关键词或者网页链接就可以采集,非常简单快捷。我们以博主主页内容为例,讲解 ...

2021-5-28 16:02

如何使用微博工具箱-以采集微博关键词搜索结果为例
如何使用微博工具箱-以采集微博关键词搜索结果为例
集搜客有成熟的微博工具箱,可以采集微博的关键词搜索结果,博主博文,博主信息,微博话题,博文转发/评论等等。不需要做采集规则,输入关键词或者网页链接就可以采集,非常简单快捷。我们以微博关键词搜索结果为例 ...

2021-5-11 17:58

“只用规则中的输入词”选项的使用方法
“只用规则中的输入词”选项的使用方法
1. 常用场景这个选项只对旗舰版用户有用。1.1. 旗舰版批量导入输入词采集规则中如果有输入和组合输入类型的动作,旗舰版用户不必把所有的输入词都录入到规则中(规则只允许录入5个),而是在会员中心的任务管理界面 ...

2021-4-29 16:20

去资源库下载规则,轻松抓数据
去资源库下载规则,轻松抓数据
海量规则模板,免去做规则烦恼。如果你不会做规则但又非常想直接抓取数据,可以到集搜客的资源库直接下载规则模板,直接抓取数据。集搜客的资源库拥有大量成熟的规则模板,提供微信、微博、电商、新闻、论坛、行业等 ...

2021-4-21 18:42

采集下载指定网页区域内的所有图片
采集下载指定网页区域内的所有图片
集搜客数据管家,可以很快捷地把网页上某块区域的图片或者视频全部都抓取下来,保存在本地。比如,京东搜索“T恤”后,得到的一个列表页。可以抓取整个列表区域内所有的图片。我们以此为例来讲解操作过程。视频抓取 ...

2021-4-19 18:45

如何使用快捷采集-以京东评论采集为例
如何使用快捷采集-以京东评论采集为例
集搜客针对不同的网站(网页)提供了很多快捷采集工具,添加链接或者关键词,就可以采集数据,不用做采集规则,非常简单快捷。我们以京东为例,讲解快捷采集的使用过程。1. 首先下载安装Gooseeker数据管家(增强版爬 ...

2021-4-9 16:15

如何使用快捷采集-以知乎数据采集为例
如何使用快捷采集-以知乎数据采集为例
集搜客针对不同的网站(网页)提供了很多快捷采集工具,添加链接或者关键词,就可以采集数据,不用做采集规则,非常简单快捷。我们以知乎为例,讲解快捷采集的使用过程。1. 首先下载安装Gooseeker数据管家(增强版爬 ...

2021-4-1 16:24

下载安装集搜客数据管家(增强版爬虫软件)
下载安装集搜客数据管家(增强版爬虫软件)
1. 打开集搜客官网 https://www.gooseeker.com(注意,不要用360浏览器打开)。2. 注册一个集搜客账号可以用邮箱注册,也可以微信扫码注册。一定要记下自己的集搜客账号和密码。后面会用到。我们用邮箱注册了一个账 ...

2021-3-30 16:37

自动回退返回上级页面-以懂车帝采集为例
自动回退返回上级页面-以懂车帝采集为例
当网页上的超链接没有独立网址,而是一段JavaScript代码,比如:onclick=”javascript:void(0)”,点击超链接后,当前网页会切换成新网页的信息。这种情况下,只能用连续动作的点击动作,进入超链接网页里采集信息, ...

2021-3-26 16:27

自动选择下拉菜单采集数据—以知网为例
自动选择下拉菜单采集数据—以知网为例
以中国知网的期刊为例,演示怎样从年份的下拉菜单中选择2016年,然后点击搜索按钮,搜索2016年的期刊。总共要做三个动作,动作1和2在下拉菜单中选择2016,动作3点击搜索。为了实现这个自动采集,需要建立两级任务, ...

2021-3-22 18:03

在Jupyter Notebook中用python提取pdf表格及文本内容
在Jupyter Notebook中用python提取pdf表格及文本内容
1. 项目说明1.1. 数据分析师可以驾驭的数据处理模板对pdf文件中的文本和表格进行处理,很多数据分析师会碰到,因为pdf格式非常流行。然而从pdf中抽取表格和文本却不那么容易。也不是技术上没有手段,而是你无法预期 ...

2021-3-19 15:58

鼠标悬停信息采集—以淘宝店铺动态评分为例
鼠标悬停信息采集—以淘宝店铺动态评分为例
鼠标悬停后,浮窗里显示的信息,如何采集?需要用连续动作中的悬浮动作。下面以淘宝关键词搜索店铺为例,演示如何采集浮窗里显示的店铺动态评分。案例:第一级任务:悬停信息采集-第一级第二级任务:悬停信息采集-第 ...

2021-3-17 17:41

康托尔对角线方法与停机问题和罗素悖论(4)
康托尔对角线方法与停机问题和罗素悖论(4)
上接《哥德尔不完备定理》4. 大道至简 —— 康托尔的天才“ 大道至简 ” 这个名词或许更多出现在文学和哲学里面,一般用在一些模模糊糊玄玄乎乎的哲学观点上。然而,用在这里,数学上,这个名词才终于适得其所。大道 ...

2021-3-16 18:28

哥德尔的不完备性定理(3)
哥德尔的不完备性定理(3)
上接《Y Combinator、lambda算子和不动点原理》3.哥德尔的不完备性定理然而,漫长的 Y Combinator 征途仍然并非本文的最终目的,对于 Y combinator 的构造和解释,只是给不了解 lambda calculus 或 Y combinator 的 ...

2021-3-16 16:12

GMT+8, 2024-12-4 19:54