zl程序教程

您现在的位置是:首页 >  其他

当前栏目

大数据Spark “蘑菇云”行动第82课:Spark机器学习本质思考及案例初体验

案例机器学习数据Spark 思考 本质 初体验
2023-09-27 14:26:47 时间
大数据Spark “蘑菇云”行动第82课:Spark机器学习本质思考及案例初体验




逻辑回归 a b 男还是女 垃圾邮件 合格 还是不合格
线性回归  多个


ALS是机器学习最重要的算法!!


机器学习水平的高低:水平体现在2个方面:
1,标签的选取;2,参数的调优


类似数码相机: 选景、参数选取 


K-means is one of the most commonly used clustering algorithms that clusters the data points into a predefined number of clusters. 




import org.apache.spark.mllib.clustering.{KMeans, KMeansModel}
import org.apache.spark.mllib.linalg.Vectors


// Load and parse the data
val data = sc.textFile("data/mllib/kmeans_data.txt")
val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble))).cache()


// Cluster the data into two classes using KMeans
val numClusters = 2