您现在的位置是：首页 > 工具

当前栏目

Apache Spark机器学习2.6　特征提取

Apache 机器学习 Spark 2.6 特征提取

2023-09-11 14:16:05 时间

在本节，我们的关注点将转向特征提取，特征提取是根据工作数据集中可用特征或信息扩展为新的特征或者变量。与此同时，我们将讨论一些Apache Spark中特征提取的特殊功能，以及Spark中与特征相关的便捷解决方案。

学完本节之后，我们能够针对各种各样的机器学习项目开发并组织特征。

2.6.1 特征开发的挑战

大部分的大数据机器学习项目通常都不能直接使用大数据集。例如，使用网络日志数据时，它经常以随机文本集形式呈现，显得非常混乱，我们需要从中提取对机器学习有用的信息和特征。例如，我们需要从网络日志数据提取点击次数和展示次数，这样才能使用许多文本挖掘工具和算法。

对于任何特征提取，机器学习从业者需要决定：

采用什么信息，生成哪些特征

使用何种方法和算法

提取什么特征取决于以下几种情况：

数据可用性以及数据特性，比如处理数据缺失情况的难易程度

可用的算法，尽管有很多的算法可用于数据元素的数字组合，但较缺乏文本操作

算法

领域知识，因为涉及解读特征的能力

总体来说，下面几个常用的技术可用于追踪特征：

数据描述

数据合并

时序转换

地理相关技术

主成分分析（PCA）

特征准备的另一项工作是从数百上千个可用特征中进行选择，然后用于我们的机器学习项目。在机器学习中，特别是监督学习，手头上的普遍问题常常是根据一组预测性特征来预测结果。在大数据时代，乍看之下，会自然而然认为我们拥有的特征越多，预测效果会越好。然而，随着特征量的增加也会导致一些问题，如增加计算时间，也会导致生成结果的解读性差。

大多数情况下，在特征准备阶段，机器学习从业者经常使用与回归模型相关的特征选择方法和算法。

2.6.2 基于Spark MLlib的特征开发

特征提取可以使用Spark SQL实现，同时，Spark MLlib也有一些特殊函数完成此项任务，例如TF-IDF和Word2Vec。

MLlib和R语言都有主成分分析包，可以用于特征开发。

如我们所知，在2.2.3节，我们有4个数据表可用于展示说明：

在这里，我们可以对第三方数据应用特征提取技术，然后对最终合并的（连接）数据集进行特征选择。

基于Spark MLlib，我们可以用下面的命令调用TF-IDF：

另外，我们也可以应用Word2Vec，如下面的例子所示。

下面的例子（在Scala中）首先加载一个文本文件，把它解析为一个Seq[String] 类型的RDD，再构建一个Word2Vec实例，之后使用数据拟合Word2VecModel。然后，我们可以显示指定的前40个单词的同义词。这里，我们假定计划提取的文件名为text8，并和运行的Spark shell在同一个目录下。运行下面的代码：

有关使用Spark MLlib进行特征提取的更多信息，请访问：http://spark.apache.org/docs/latest/mllib-feature-extraction.html。

2.6.3 基于R语言的特征开发

前面提到了4个数据表：

正如前面讨论的，我们可以对第三方数据应用特征提取技术，然后对最终合并的（连接）数据集进行特征选择。

如果我们在R语言中利用Spark R notebook实现它们，就必须用到一些R程序包。如果使用ReporteRs，我们可以执行以下命令：

关于ReporteRsR程序包的更多信息请访问：https://cran.r-project.org/web/packages/ReporteRs/ReporteRs.pdf。

《Apache Spark 中文实战攻略下册》电子版地址《Apache Spark 中文实战攻略（下册）》让企业大数据平台性能更优。阿里、Databricks、领英、Intel都在用！Spark 企业级最佳实践中文解读全收纳！
《Apache Spark 中文实战攻略上册》电子版地址《Apache Spark 中文实战攻略（上册）》全新收录了Spark+AI Summit 2020 中文精华版峰会，Apache Spark 3.0性能优化与基础实战一书看遍！
《Apache Spark 中文实战攻略下册》电子版《Apache Spark 中文实战攻略（下册）》让企业大数据平台性能更优。阿里、Databricks、领英、Intel都在用！Spark 企业级最佳实践中文解读全收纳！

猜你喜欢

lqb 基础练习闰年判断
Google Earth Engine ——2001-2017年非洲土壤在 0-20 厘米和 20-50 厘米的土壤深度处可提取的镁数据，预测平均值和标准偏差
[Oracle]如何获得出现故障时，客户端的详细连接信息
JavaScript中split方法的使用
JetBrains发布代码质量检测工具Qodana早期预览版
[模板题][Hulu面试题]差分
xinetd - 扩展的互联网服务守护进程
《惢客创业日记》2020.12.02（周三）杠精和产品体验官
CVE-2021-29505：XStream远程代码执行漏洞通告
5.9-3 用正则表达式判断字符串text是否为合法的手机号
python之函数用法__str__()
xtu字符串 B. Power Strings
vim查找命令 - Vim清除上次搜索高亮显示
思维的局限
C
金融IC卡降级交易常见问题解答
PE文件附加数据感染之Worm.Win32.Agent.ayd病毒分析
欧盟启动自动驾驶试点项目　评估物联网技术性能
SV(3)-面向对象编程基础（类和对象）
centos7--zabbix3.4微信报警
Laravel Eloquent 的条件不等于
杭州西郊千湖岛-天下第一秀水
《Java编码指南：编写安全可靠程序的75条建议》—— 指南9：防止LDAP注入
hdu 1874 畅通工程续 (floyd)

相关主题

Apache Spark
Apache重定向
Apache虚拟主机
apache支持php
nginx和apache
[机器学习] 集成学习
机器学习和统计学习
机器学习之深度学习
Apache日志
apache是什么
Apache Shiro 手册
Apache + PHP配置
apache http
26.Apache
apache mina

zl程序教程

当前栏目

Apache Spark机器学习2.6　特征提取

相关文章

当前栏目

Apache Spark机器学习2.6 特征提取

相关文章

Apache Spark机器学习2.6　特征提取