PySpark系列教程–1.起航
2023-02-26 10:21:04 时间
PySpark系列教程–1.起航
搭建环境
本次使用的环境版本为hadoop3.2.1和spark3.0.2
(福利推荐:阿里云、腾讯云、华为云服务器最新限时优惠活动,云服务器1核2G仅88元/年、2核4G仅698元/3年,点击这里立即抢购>>>)
1. 安装JDK
推荐安装jdk8
2. 安装hadoop
- 下载hadoop,推荐使用国内镜像
- 解压到本地,路径不能包含空格!
- 配置环境变量
HADOOP_HOME
,并在PATH
中增加%HADOOP_HOME%bin
- 在cmd中测试安装是否成功
3. 安装spark
- 下载Spark:spark-3.0.2-bin-hadoop3.2.tgz,推荐使用国内镜像
- 解压到指定路径,路径不能包含空格!
- 配置环境变量,配置
SPARK_HOME
,并且在PATH
中添加%SPARK_HOMEbin%
- 在命令行测试是否安装成功
4. 安装python
- 推荐安装python3,这里使用python3.9
5. 下载winutils
- 下载地址:https://codechina.csdn.net/mirrors/cdarlint/winutils
- 选择需要的版本,将相关文件复制到本地的%HADOOP_HOME%bin下面
6. 安装pyspark、findspark
- 使用pip安装pyspark和findspark
pip install pyspark findspark
7. 测试第一个pyspark程序
import findspark findspark.init() from pyspark import SparkContext sc = SparkContext("local","first app") data = sc.textFile("../datas/test.txt") count = data.count() print(count)
8. 配置pyspark访问hive
- 将被访问的hadoop集群中的相关配置文件复制到本地hadoop集群中,具体文件是$HADOOP_HOME/etc/hadoop/下的
yarn-site.xml、core-site.xml、hdfs-site.xml、hadoop-env.sh、mapred-site.xml、workers
- 将$HADOOP_HOME/etc/hadoop/下的相关文件复制到本地%SPARK_HOME%conf下,具体文件有
yarn-site.xml、core-site.xml和hdfs-site.xml
9. 测试windows下的pyspark访问hive
- 测试程序
import findspark findspark.init() from pyspark.sql import SparkSession import warnings warnings.filterwarnings('ignore') spark = SparkSession.builder.master("local[*]") .appName("test").enableHiveSupport().getOrCreate() read_df=spark.sql("select * from test1") read_df.show()
- 测试结果
你还在原价购买阿里云、腾讯云、华为云、天翼云产品?那就亏大啦!现在申请成为四大品牌云厂商VIP用户,可以3折优惠价购买云服务器等云产品,并且可享四大云服务商产品终身VIP优惠价,还等什么?赶紧点击下面对应链接免费申请VIP客户吧:
相关文章
- Jgit的使用笔记
- 利用Github Action实现Tornadofx/JavaFx打包
- 叹息!GitHub Trending 即将成为历史!
- 微软软了?开源社区讨论炸锅,GitHub CEO 亲自来答
- GitHub Trending 列表频现重复项,前后端都没去重?
- Photoshop Elements 2021版本软件安装教程(mac+windows全版本都有)
- (ps全版本)Photoshop 2020的安装与破解教程(mac+windows全版本都有)
- (ps全版本)Photoshop cc2018的安装与破解教程(mac+windows全版本,包括2023
- 环境搭建:Oracle GoldenGate 大数据迁移到 Redshift/Flat file/Flume/Kafka测试流程
- 每个开发人员都要掌握的:最小 Linux 基础课
- 来撸羊毛了!Windows 环境下 Hexo 博客搭建,并部署到 GitHub Pages
- 超实用!手把手入门 MongoDB:这些坑点请一定远离
- 【GitHub日报】22-10-09 zustand、neovim、webtorrent、express 等4款App今日上新
- 【GitHub日报】22-10-10 brew、minio、vite、seaweedfs、dbeaver 等8款App今日上新
- 【GitHub日报】22-10-11 cobra、grafana、vue、ToolJet、redwood 等13款App今日上新
- Photoshop 2018 下载及安装教程(mac+windows全版本都有,包括最新的2023)
- Photoshop 2017 下载及安装教程(mac+windows全版本都有,包括最新的2023)
- Photoshop 2020 下载及安装教程(mac+windows全版本都有,包括最新的2023)
- Photoshop 2023 资源免费下载(mac+windows全版本都有,包括最新的2023)
- 最新版本Photoshop CC2018软件安装教程(mac+windows全版本都有,包括2023