zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

初识线性回归(Excel-Python实现)

2023-04-18 14:23:27 时间


前言

环境:
1、jupyter编程环境
2、excel数据分析


一、用excel中数据分析功能做线性回归练习

1、excel引入数据分析工具

  • 点击文件:
    在这里插入图片描述
  • 在左边弹出的侧边栏选择选项:
    在这里插入图片描述
  • 点击加载项:

在这里插入图片描述

  • 勾选下图的工具库,点击确定:

在这里插入图片描述

  • 显示数据分析项就是设置成功:
    在这里插入图片描述

2、20组数据线性回归分析

  • 点击数据分析:
    在这里插入图片描述

  • 选择回归分析:
    在这里插入图片描述

  • 选择数据范围:

在这里插入图片描述

  • 输出图表:
    在这里插入图片描述

  • 设置最大最小值,间隔单位:
    在这里插入图片描述

通过调整上面的参数使得图表更加仔细。

  • 添加趋势线和显示公式:
    在这里插入图片描述
    在这里插入图片描述

接下来的200组数据分析与20000组操作一致,展示结果即可。

3、200组数据线性回归分析

  • 选择200组数据:
    在这里插入图片描述

  • 图表:

在这里插入图片描述

4、2000组数据线性回归分析

  • 选择数据:
    在这里插入图片描述
  • 图表:
    在这里插入图片描述

二、jupyter编程实现线性回归练习

1、导入excel表

在最开始使用的是通过路径的方式读取excel表数据的数据,报了很多错误,解决了很久也没搞定。然后发现将需要的文件上传到jupyter更加方便。下面的代码使用的是最小二乘法实现的。

在这里插入图片描述

  • 选择文件后点击Upload上传
    在这里插入图片描述

  • 新建一个文本:
    在这里插入图片描述

2、20组数据线性回归分析

  • 代码:
import pandas as pd
import numpy as np
import math
#准备数据
p=pd.read_excel('weights_heights(身高-体重数据集).xls','weights_heights')
#读取20行数据
p1=p.head(20)
x=p1["Height"]
y=p1["Weight"]
# 平均值
x_mean = np.mean(x)
y_mean = np.mean(y)
#x(或y)列的总数(即n)
xsize = x.size
zi=((x-x_mean)*(y-y_mean)).sum()
mu=((x-x_mean)*(x-x_mean)).sum()
n=((y-y_mean)*(y-y_mean)).sum()
# 参数a b
a = zi / mu
b = y_mean - a * x_mean
#相关系数R的平方
m=((zi/math.sqrt(mu*n))**2)
# 这里对参数保留4位有效数字
a = np.around(a,decimals=4)
b = np.around(b,decimals=4)
m = np.around(m,decimals=4)
print(f'回归线方程:y = {a}x +({b})') 
print(f'相关回归系数为{m}')
#借助第三方库skleran画出拟合曲线
y1 = a*x + b
plt.scatter(x,y)
plt.plot(x,y1,c='r')

  • 图表:
    在这里插入图片描述

回归线方程:y = 4.128x +(-152.2338)
相关回归系数:0.3254

3、200组数据线性回归分析

  • 修改为200的数据:

p1=p.head(200)

  • 图表:
    在这里插入图片描述

回归线方程:y = 3.4317x +(-105.959)
相关回归系数为:0.31

4、20000组数据线性回归分析

  • 修改为2000的数据:

p1=p.head(2000)

  • 图表:
    在这里插入图片描述

回归线方程:y = 2.9555x +(-73.6608)
相关回归系数为:0.2483

三、用jupyter编程,借助skleran实现线性回归练习

1、下载skleran库

  • 在单元格输入下面的命令:
!pip install scikit-learn  -i https://pypi.tuna.tsinghua.edu.cn/simple

2、20组数据线性回归分析

  • 代码:
# 导入所需的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

p=pd.read_excel('weights_heights.xls','weights_heights')
#读取数据行数
p1=p.head(20)
x=p1["Height"]
y=p1["Weight"]
# 数据处理
# sklearn 拟合输入输出一般都是二维数组,这里将一维转换为二维。
y = np.array(y).reshape(-1, 1)
x = np.array(x).reshape(-1, 1)
# 拟合
reg = LinearRegression()
reg.fit(x,y)
a = reg.coef_[0][0]     # 系数
b = reg.intercept_[0]   # 截距
print('拟合的方程为:Y = %.4fX + (%.4f)' % (a, b))
c=reg.score(x,y)    # 相关系数
print(f'相关回归系数为%.4f'%c)

# 可视化
prediction = reg.predict(y)                # 根据高度,按照拟合的曲线预测温度值
plt.xlabel('身高')
plt.ylabel('体重')
plt.scatter(x,y)
y1 = a*x + b
plt.plot(x,y1,c='r')
  • 效果:
    在这里插入图片描述

拟合的方程为:Y = 4.1280X + (-152.2338)
相关回归系数为:0.3254

3、200组数据线性回归分析

-修改为200的数据:

p1=p.head(200)

  • 图表:
    在这里插入图片描述

拟合的方程为:Y = 3.4317X + (-105.9590)
相关回归系数为:0.3100

4、2000组数据线性回归分析

  • 修改为2000的数据:

p1=p.head(2000)

  • 图表:
    在这里插入图片描述

拟合的方程为:Y = 2.9555X + (-73.6608)
相关回归系数为:0.2483


四、总结

这里总共使用了三种方法对数据进行回归计算,对于excel的回归方法更为直观,选定数据直接便可出结果。然而,使用jupyter进行编程的话对公式的理解就较为深刻,使用sklearn库的话使用内置的库函数则相对编程的方法较为方便,不用自己编程实现公式。

五、参考资料

Excel和jupyter实现数据的线性回归

初识线性回归