您现在的位置是：首页 > 大数据

当前栏目

pyspark 多层神经网络

神经网络多层 Pyspark

2023-09-14 09:15:50 时间


from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql import SparkSession

from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml.classification import MultilayerPerceptronClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.sql.types import DoubleType, IntegerType


if __name__ == "__main__":

    sc = SparkContext('local', 'mlp')
    sqlContext = SQLContext(sc)

    spark = SparkSession\
        .builder\
        .appName("MLPClassifier")\
        .getOrCreate()

    #read in csv as dataframe
    dataset = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('./data/titanic.csv')   
    dataset = dataset.drop('PassengerId','Name','Ticket','Cabin')       

    #set column types
    dataset = dataset.withColumn("Survived", dataset["Survived"].cast(IntegerType()))
    dataset = dataset.withColumn("Pclass", dataset["Pclass"].cast(IntegerType()))    
    dataset = dataset.withColumn("Age", dataset["Age"].cast(DoubleType()))
    dataset = dataset.withColumn("SibSp", dataset["SibSp"].cast(IntegerType()))
    dataset = dataset.withColumn("Parch", dataset["Parch"].cast(IntegerType()))
    dataset = dataset.withColumn("Fare", dataset["Fare"].cast(DoubleType()))

    #fill NaN
    avg_age = round(dataset.groupBy().avg("age").collect()[0][0],2)
    dataset = dataset.na.fill({'Age': avg_age})
    dataset = dataset.na.drop()

    #map categorical data
    indexer = StringIndexer(inputCol="Sex", outputCol="SexInd")
    dataset = indexer.fit(dataset).transform(dataset)

    indexer = StringIndexer(inputCol="Embarked", outputCol="EmbarkedInd")
    dataset = indexer.fit(dataset).transform(dataset)

    #assemble features
    assembler = VectorAssembler(
        inputCols=["Age","Pclass","SexInd","SibSp","Parch","Fare","EmbarkedInd"],
        outputCol="features")

    dataset = assembler.transform(dataset)

    (trainingData, testData) = dataset.randomSplit([0.8, 0.2])

    #MLP
    layers = [7, 8, 4, 2]  #input: 7 features; output: 2 classes
    mlp = MultilayerPerceptronClassifier(maxIter=100, layers=layers, labelCol="Survived", featuresCol="features", blockSize=128, seed=0)

    model = mlp.fit(trainingData)    
    result = model.transform(testData)

    prediction_label = result.select("prediction", "Survived")
    evaluator = MulticlassClassificationEvaluator(labelCol="Survived", predictionCol="prediction", metricName="accuracy")
    print ("MLP test accuracy: " + str(evaluator.evaluate(prediction_label)))

猜你喜欢

oracle的字符集检查工具CSSCAN(三)
element ui 表单验证触发方式：trigger: ‘change‘和trigger: ‘blur‘区别
MFC Windows 程序设计[237]之动态值的控制(附源码)
工控系统的指纹识别技术
Cocos2d-x Lua中Sprite精灵类
DBMS_STATS.GATHER_TABLE_STATS详解
【看表情包学Linux】进程优先级 | 查看系统进程 | 优先级修改 | 进程的切换 | 竞争性与独立性 | 并行并发的概念 | 环境变量
byte数组怎么存放到Json中传递
十字光标定位
微信小程序_(组件)picker
py 时间处理
（Java实现）洛谷 P1042 乒乓球

相关主题

BP神经网络
循环神经网络
Python : bp神经网络
卷积神经网络(CNN)原理
CNN 卷积神经网络结构
从M-P模型到神经网络
卷积神经网络基础
卷积神经网络(一）
神经网络图翻译为图
神经网络-卷积层
卷积神经网络（CNN）
神经网络学习（一）
42 BP神经网络
神经网络案例
前馈神经网络
神经网络算法
神经网络原理
Matlab神经网络
神经网络推荐

zl程序教程

当前栏目

pyspark 多层神经网络

相关文章