您现在的位置是：首页 > 硬件

当前栏目

机器学习：基本概念-标签、特征、样本、模型、回归与分类

机器学习模型分类标签回归特征基本概念

2023-09-14 09:13:04 时间

什么是（监督式）机器学习？简单来说，它的定义如下：

机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

下面我们来了解一下机器学习的基本术语。

特征

特征是输入变量，即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数百万个特征，按如下方式指定：

x1,x2,...xN

在垃圾邮件检测器示例中，特征可能包括：

电子邮件文本中的字词
发件人的地址
发送电子邮件的时段
电子邮件中包含“一种奇怪的把戏”这样的短语。

样本

样本是指数据的特定实例：x。（我们采用粗体 x 表示它是一个矢量。）我们将样本分为以下两类：

有标签样本
无标签样本

有标签样本同时包含特征和标签。即：

labeled examples: {features, label}: (x, y)

我们使用有标签样本来训练模型。在我们的垃圾邮件检测器示例中，有标签样本是用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件。

例如，下表显示了从包含加利福尼亚州房价信息的数据集中抽取的 5 个有标签样本：

housingMedianAge （特征）	totalRooms （特征）	totalBedrooms （特征）	medianHouseValue （标签）
15	5612	1283	66900
19	7650	1901	80100
17	720	174	85700
14	1501	337	73400
20	1454	326	65500

无标签样本包含特征，但不包含标签。即：

unlabeled examples: {features, ?}: (x, ?)

以下是取自同一住房数据集的 3 个无标签样本，其中不包含 medianHouseValue：

housingMedianAge （特征）	totalRooms （特征）	totalBedrooms （特征）
42	1686	361
34	1226	180
33	1077	271

在使用有标签样本训练模型之后，我们会使用该模型预测无标签样本的标签。在垃圾邮件检测器示例中，无标签样本是用户尚未添加标签的新电子邮件。

模型

模型定义了特征与标签之间的关系。例如，垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段：

训练是指创建或学习模型。也就是说，向模型展示有标签样本，让模型逐渐学习特征与标签之间的关系。
推断是指将训练后的模型应用于无标签样本。也就是说，使用经过训练的模型做出有用的预测 (y')。例如，在推断期间，您可以针对新的无标签样本预测 medianHouseValue。

回归与分类

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题：

加利福尼亚州一栋房产的价值是多少？
用户点击此广告的概率是多少？

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题：

某个指定电子邮件是垃圾邮件还是非垃圾邮件？
这是一张狗、猫还是仓鼠图片？

猜你喜欢

Linux安装JDK 6：一步一步指南（linux安装jdk6）
结构探索Linux内核源码的神秘目录结构（linux内核源码目录）
MyBatis实践之动态SQL及关联查询
MySQL 数据库的最大限制（mysql最大限制）
中国AI最高奖第10年了：每一位获奖者，都是这个黄金时代的创造者
使用Oracle OJDBC进行数据库连接（oracleojdbc）
深入探索Redis频道的妙处（查看redis频道）
借助Redis锁应对缓存击穿（缓存击穿 redis 锁）
百度云服务器上体验Redis强大性能（百度redis使用）
简介
php sql filestream,FileStream应用
线程的基本操作及原理
策略 Redis Java过期策略：优化内存性能（redisjava过期）
jqueryajax提交整个表单元素的快捷办法
Linux系统重启：用reboot命令（linux重启系统命令）
双功能小分子协同P450酶催化首次被提出
java读取配置文件详解编程语言
使用Redis实现轻松准确的库存扣减（使用redis扣减库存）

相关主题

机器学习笔记
机器学习——决策树
机器学习——感知机
机器学习---聚类算法
机器学习基础篇_2/2
机器学习之数学基础
机器学习-矩阵

zl程序教程

当前栏目

机器学习：基本概念-标签、特征、样本、模型、回归与分类

标签

特征

样本

模型

回归与分类

相关文章