资讯

如何使用快捷采集-以知乎数据采集为例
如何使用快捷采集-以知乎数据采集为例
集搜客针对不同的网站(网页)提供了很多快捷采集工具,添加链接或者关键词,就可以采集数据,不用做采集规则,非常简单快捷。我们以知乎为例,讲解快捷采集的使用过程。1. 首先下载安装Gooseeker数据管家(增强版爬 ...

2021-4-1 16:24

下载安装集搜客数据管家(增强版爬虫软件)
下载安装集搜客数据管家(增强版爬虫软件)
1. 打开集搜客官网 https://www.gooseeker.com(注意,不要用360浏览器打开)。2. 注册一个集搜客账号可以用邮箱注册,也可以微信扫码注册。一定要记下自己的集搜客账号和密码。后面会用到。我们用邮箱注册了一个账 ...

2021-3-30 16:37

自动回退返回上级页面-以懂车帝采集为例
自动回退返回上级页面-以懂车帝采集为例
当网页上的超链接没有独立网址,而是一段JavaScript代码,比如:onclick=”javascript:void(0)”,点击超链接后,当前网页会切换成新网页的信息。这种情况下,只能用连续动作的点击动作,进入超链接网页里采集信息, ...

2021-3-26 16:27

自动选择下拉菜单采集数据—以知网为例
自动选择下拉菜单采集数据—以知网为例
以中国知网的期刊为例,演示怎样从年份的下拉菜单中选择2016年,然后点击搜索按钮,搜索2016年的期刊。总共要做三个动作,动作1和2在下拉菜单中选择2016,动作3点击搜索。为了实现这个自动采集,需要建立两级任务, ...

2021-3-22 18:03

在Jupyter Notebook中用python提取pdf表格及文本内容
在Jupyter Notebook中用python提取pdf表格及文本内容
1. 项目说明1.1. 数据分析师可以驾驭的数据处理模板对pdf文件中的文本和表格进行处理,很多数据分析师会碰到,因为pdf格式非常流行。然而从pdf中抽取表格和文本却不那么容易。也不是技术上没有手段,而是你无法预期 ...

2021-3-19 15:58

鼠标悬停信息采集—以淘宝店铺动态评分为例
鼠标悬停信息采集—以淘宝店铺动态评分为例
鼠标悬停后,浮窗里显示的信息,如何采集?需要用连续动作中的悬浮动作。下面以淘宝关键词搜索店铺为例,演示如何采集浮窗里显示的店铺动态评分。案例:第一级任务:悬停信息采集-第一级第二级任务:悬停信息采集-第 ...

2021-3-17 17:41

康托尔对角线方法与停机问题和罗素悖论(4)
康托尔对角线方法与停机问题和罗素悖论(4)
上接《哥德尔不完备定理》4. 大道至简 —— 康托尔的天才“ 大道至简 ” 这个名词或许更多出现在文学和哲学里面,一般用在一些模模糊糊玄玄乎乎的哲学观点上。然而,用在这里,数学上,这个名词才终于适得其所。大道 ...

2021-3-16 18:28

哥德尔的不完备性定理(3)
哥德尔的不完备性定理(3)
上接《Y Combinator、lambda算子和不动点原理》3.哥德尔的不完备性定理然而,漫长的 Y Combinator 征途仍然并非本文的最终目的,对于 Y combinator 的构造和解释,只是给不了解 lambda calculus 或 Y combinator 的 ...

2021-3-16 16:12

Y Combinator、lambda算子和不动点原理(2)
Y Combinator、lambda算子和不动点原理(2)
接第一部分《图灵停机问题》原文链接:https://blog.csdn.net/pongba/article/details/13360282. Y Combinator了解 Y combinator 的请直接跳过这一节,到下一节 “ 哥德尔的不完备性定理 ” 。让我们暂且搁下但记住 ...

2021-3-14 23:32

图灵停机问题、哥德尔不完备定理和康托尔的对角线方法(1)
图灵停机问题、哥德尔不完备定理和康托尔的对角线方法(1)
原标题:康托尔、哥德尔、图灵 —— 永恒的金色对角线原文链接:https://blog.csdn.net/pongba/article/details/1336028By 刘未鹏 C++ 的罗浮宫 (http://blog.csdn.net/pongba)我看到了它,却不敢相信它 。—— 康 ...

2021-3-14 20:01

自动滚屏采集瀑布流网页—以今日头条新闻为例
自动滚屏采集瀑布流网页—以今日头条新闻为例
常见的网页大多数在页面下方会有翻页的按钮,比如“下一页”、“加载更多”,这类网页设置翻页就可以搞定,但是瀑布流网页没有这些按钮,而是随着鼠标滚动会不停的加载更多内容,变成很长的、没有底的网页。爬虫只能 ...

2021-3-11 11:56

集搜客分词结果表用Jupyter Notebook做统计分析—对应Excel功能
集搜客分词结果表用Jupyter Notebook做统计分析—对应Excel功能
Excel是数据分析师的必备工具,众多功能可以满足绝大多数的数据清洗、转换、统计计算、可视化展示。而Jupyter Notebook这类交互式数据探索和分析工具代表了一股不容忽视的潮流,借助于Python编程的强大力量,数据加 ...

2021-3-8 11:48

自动点击京东商品价格条件,智能采集价格数据
自动点击京东商品价格条件,智能采集价格数据
现在不少动态网页需要交互操作,才能浏览到最终数据,而集搜客爬虫的连续动作可以模拟人在浏览网页时的操作,从而采集到最终显示出来的数据。连续动作的难点是:怎样写xpath。我们需要用xpath告诉爬虫,去哪个位置进 ...

2021-3-3 16:40

实验Jupyter Notebook的code cell的输出结果
实验Jupyter Notebook的code cell的输出结果
Jupyter Notebook是数据探索和数据分析的必不可少的工具。另外,一些探索性的数据计算、可视化都可以在上面进行,交互式的工作方式,而且同时把探索过程记录成文档,而不是编程与写文档分离,这个特点很适合在项目可 ...

2021-2-28 11:43

用Jupyter notebook写文档的常用格式
用Jupyter notebook写文档的常用格式
本文收集常用的文档格式,Markdown的例子可以参看Jupyter的官方文档《Working with Markdown Cells》。以前写文档主要使用MediaWiki,其实这类文档的格式很类似,虽然使用了不同的格式符号,但是基本上是一一对应的 ...

2021-2-28 11:22

GMT+8, 2024-4-20 17:50