zl程序教程

您现在的位置是:首页 >  其他

当前栏目

PySpark系列教程–1.起航

2023-02-26 10:21:04 时间

PySpark系列教程–1.起航

搭建环境

本次使用的环境版本为hadoop3.2.1和spark3.0.2

(福利推荐:阿里云、腾讯云、华为云服务器最新限时优惠活动,云服务器1核2G仅88元/年、2核4G仅698元/3年,点击这里立即抢购>>>

1. 安装JDK

推荐安装jdk8

2. 安装hadoop

  1. 下载hadoop,推荐使用国内镜像
  2. 解压到本地,路径不能包含空格!
  3. 配置环境变量HADOOP_HOME,并在PATH中增加%HADOOP_HOME%bin
  4. 在cmd中测试安装是否成功

PySpark系列教程--1.起航

3. 安装spark

  1. 下载Spark:spark-3.0.2-bin-hadoop3.2.tgz,推荐使用国内镜像
  2. 解压到指定路径,路径不能包含空格!
  3. 配置环境变量,配置SPARK_HOME,并且在PATH中添加%SPARK_HOMEbin%
  4. 在命令行测试是否安装成功

PySpark系列教程--1.起航

4. 安装python

  1. 推荐安装python3,这里使用python3.9

5. 下载winutils

  1. 下载地址:https://codechina.csdn.net/mirrors/cdarlint/winutils
  2. 选择需要的版本,将相关文件复制到本地的%HADOOP_HOME%bin下面

6. 安装pyspark、findspark

  1. 使用pip安装pyspark和findspark
pip install pyspark findspark

7. 测试第一个pyspark程序

import findspark findspark.init() from pyspark import SparkContext  sc = SparkContext("local","first app") data = sc.textFile("../datas/test.txt") count = data.count() print(count)

PySpark系列教程--1.起航

8. 配置pyspark访问hive

  1. 将被访问的hadoop集群中的相关配置文件复制到本地hadoop集群中,具体文件是$HADOOP_HOME/etc/hadoop/下的yarn-site.xml、core-site.xml、hdfs-site.xml、hadoop-env.sh、mapred-site.xml、workers
  2. 将$HADOOP_HOME/etc/hadoop/下的相关文件复制到本地%SPARK_HOME%conf下,具体文件有yarn-site.xml、core-site.xml和hdfs-site.xml

9. 测试windows下的pyspark访问hive

  1. 测试程序
import findspark findspark.init()  from pyspark.sql import SparkSession import warnings warnings.filterwarnings('ignore')  spark = SparkSession.builder.master("local[*]")     .appName("test").enableHiveSupport().getOrCreate() read_df=spark.sql("select * from test1") read_df.show()
  1. 测试结果

PySpark系列教程--1.起航

PySpark系列教程--1.起航


本站部分内容转载自网络,版权属于原作者所有,如有异议请联系QQ153890879修改或删除,谢谢!
转载请注明原文链接:PySpark系列教程–1.起航

你还在原价购买阿里云、腾讯云、华为云、天翼云产品?那就亏大啦!现在申请成为四大品牌云厂商VIP用户,可以3折优惠价购买云服务器等云产品,并且可享四大云服务商产品终身VIP优惠价,还等什么?赶紧点击下面对应链接免费申请VIP客户吧:

1、点击这里立即申请成为腾讯云VIP客户

2、点击这里立即注册成为天翼云VIP客户

3、点击这里立即申请成为华为云VIP客户

4、点击这里立享阿里云产品终身VIP优惠价

喜欢 (0)
[[email protected]]
分享 (0)