安装jupyter notebook并集成pyspark记录

吐槽小能手

本帖最后由吐槽小能手于 2021-8-27 11:31 编辑

1 jupyter notebook安装
安装Anaconda，下载地址：https://www.anaconda.com/products/individual#Downloads
注意Anaconda安装后，已经带了juyter notebook，所以安装完Anaconda后就可以使用jupyter notebook了。
下载安装包后，操作步骤如下：
1) 双击打开，点击Next

2)点击I Agree

3) 点击Next

4) 选择安装路径（可自定义或使用默认安装路径）后，点击Next

5) 点击Install，等待安装完成后

6) 安装完成后点Next

7) 取消勾选下图的两个选项，点击Finish

8) 打开开始菜单，找到安装的Anaconda3目录，打开后找到Jupyter Notebook，点击打开

此时的 Jupyter Notebook 默认工作目录为 C:\Users\你的电脑名，如果想修改jupyter notebook的默认工作路径，可以按如下操作：
1）打开开始菜单，找到安装的Anaconda3目录，打开后找到 Anaconda Prompt，点击打开

2) 输入： jupyter notebook --generate-config
这个命令的作用是生成Jupyter Notebook的配置文件。如果你是第一次运行，会直接生成这个文件。如果曾经运行过这个命令，就会像下图一样问你时候要覆盖原来的文件。这个时候输入n掉过。我们的主要目的只是为了找到这个文件的路径。

3）复制配置文件路径，在文件管理器中打开，然后找到c.NotebookApp.notebook_dir这个变量，并删除这一行前面的“#”，然后输入需要指定的工作路径

改完后保存。再次通过开始菜单Anaconda3目录下的Anaconda Navigator 进入Jupyter Notebook的时候会发现默认路径已经更改。
然而，如果你直接通过Anaconda3目录下的Jupyter Notebook的快捷方式进入，默认目录还是原来那个。如果需要修改，可以进行如下步骤：
1）找到安装的Anaconda3目录，打开后找到Jupyter Notebook，然后点击右键=》更多=》打开文件夹位置，找到快捷方式所在目录

2）选中快捷方式右键点击属性

3）删除目标栏的”%USERPROFILE%“部分后，点击确定

4) 再双击打开Jupyter Notebook的快捷方式，此时工作路径已经修改好了

2 安装pyspark
1) 点击New=》Python3

2）输入下面的代码后，点击Run

import sys
print(sys.version)

复制代码

此时可以看到python的版本是3.6.5，我们需要下载对应的pyspark版本

3）打开开始菜单，找到安装的Anaconda3目录，打开后找到 Anaconda Prompt，点击打开后，输入下面的代码后回车

pip install pyspark==3.0.1

复制代码

4）回到步骤二的Jupyter Notebook界面进行测试，输入下面的代码，点击Run

from datetime import datetime, date
from pyspark.sql import SparkSession
from pyspark.sql import Row
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame([
Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.show()

复制代码

到此Jupyter Notebook和pyspark已经安装完成，在此记录一下安装过程。

shenzhenuser1 · 发表于 2024-12-23 13:09:46

本帖最后由 wangyong 于 2024-12-23 13:14 编辑

Python的环境配套对初学者真是不太友好，Pyspark最高兼容到Python3.10，Pyspark不兼容Pandas2.0以上
以下环境配套是当前测试可以行的：

Python版本：3.10.11
pip install pyspark== 3.2.2
pip install numpy==1.21.6
pip install pandas==1.3.5

复制代码

重新安装某个包之前，最好先卸载再安装： pip uninstall -y numpy
卸载后可以清一下缓存后再安装： pip cache purge

马涌河畔 · 发表于 2021-8-27 15:12:39

我试试按上面的指引，在Jupyter Notebook配置enable pyspark.
还要不要安装spark计算引擎，就是很多文档提到的：spark-3.1.2-bin-hadoop3.2.tgz ？

吐槽小能手 · 发表于 2021-8-27 16:07:44

马涌河畔发表于 2021-8-27 15:12
我试试按上面的指引，在Jupyter Notebook配置enable pyspark.
还要不要安装spark计算引擎，就是很多文档提 ...

如果想深入了解sprak，是需要的。

Fuller · 发表于 2021-8-27 17:38:43

如果装spark-3.1.2-bin-hadoop3.2.tgz的话，是不是要预先吧hadoop安装起来？

马涌河畔 · 发表于 2021-8-28 21:50:25

内地环境下安装pyspark，指定用国内的源，安装速度会很快：

pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/

复制代码

马涌河畔 · 发表于 2021-8-29 08:45:48

安装了python pyspark, 就已经自动安装了spark，不需要安装Hadoop，做学习和测试足够了。
如果需要在spark中使用Hadoop的分布式文件系统(HDFS), 那就需要安装配置Hadoop。

Fuller · 发表于 2021-8-29 10:01:28

马涌河畔发表于 2021-8-29 08:45
安装了python pyspark, 就已经自动安装了spark，不需要安装Hadoop，做学习和测试足够了。
如果需要在spar ...

如果没有Hadoop，数据持久化保存在哪里？csv文件里面吗？

Fuller · 发表于 2021-8-29 10:03:12

另外，编程的时候，一直在Spark DataFrame中操作，什么时候执行数据持久化？要像Pandas那样调用一个专门的函数？还是像MySQL数据库那样会自动存到数据库中？

内容分析应用 · 发表于 2021-8-31 09:42:14

Spark的数据源，有几项核心数据源：CSV, JSON, Parquet，ORC, JDBC/ODBC连接，纯文本文件
还有很多由社区创建的数据源：Cassandra, HBase, MongoDB, AWS Redshift, XML等。

读取数据和持久化数据，数据源既可以是基于Hadoop的HDFS分布式文件系统，也可以是本地文件或其它
比如：

# 读取hadoop文件
read_hdfs = sc.textFile("hdfs/testfile")
# 读取本地文件
read_txt = sc.textFile("file:///home/xiaohuzi/spark_exercise/data/testfile.txt")

复制代码

Fuller · 发表于 2021-8-31 10:24:20

内容分析应用发表于 2021-8-31 09:42
Spark的数据源，有几项核心数据源：CSV, JSON, Parquet，ORC, JDBC/ODBC连接，纯文本文件
还有很多由社区创 ...

在DataFrame中处理完了数据，怎样写到持久化存储中？

安装jupyter notebook并集成pyspark记录

本帖子中包含更多资源

共 14 个关于本帖的回复最后回复于 2024-12-23 13:09

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

安装jupyter notebook并集成pyspark记录

本帖子中包含更多资源

共 14 个关于本帖的回复 最后回复于 2024-12-23 13:09

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 14 个关于本帖的回复最后回复于 2024-12-23 13:09