数学建模五大模型之一 预测模型详解下
  • 数学建模五大模型之一 预测模型详解下

产品描述

许可形式单机和网络版 原产地中国 介质下载 适用平台windows,mac


spsspro2024.8.16知乎

上篇我们详细介绍了4种数学建模中常用的预测模型,包括:

1.时间序列ARIMA模型

2.灰色预测模型GM(1,1)

3.BP神经网络

4.支持向量机回归(SVR)


本篇我们将继续介绍数学建模中常用的其他预测模型,包括:

5.线性回归(较小二乘法)

6.决策树回归

7.随机森林回归

8.XGBoost回归


5、线性预测——线性回归(较小二乘法)

线性回归是一种基础的统计方法,用于建立自变量(解释变量)与因变量(响应变量)之间的线性关系模型。较小二乘法则是求解线性回归模型参数的一种常用方法,其核心思想是通过较小化误差的平方和来找到较佳拟合的直线或超平面。该模型在处理线性关系时具有显著优势,但在面对非线性关系、异常值、多重共线性等问题时则存在不足。


01、模型关键术语

(1)较小二乘法:当你尝试用一条直线去拟合一组数据时,你会发现这条直线不可能完美地穿过每一个点。因此,你会想要找到一条直线,使得这条直线与每个点之间的“差距”(误差)的平方和较小。这就是较小二乘法的核心思想——通过较小化误差的平方和来找到较佳拟合直线。


(2)回归系数:回归系数就像是直线的斜率和截距。在一元线性回归中,有一个斜率和一个截距,斜率表示了X每变化一个单位时,Y平均会变化多少个单位;截距则表示了当X=0时,Y的值是多少(但需要注意的是,在实际问题中X=0可能没有实际意义);在多元线性回归中,会有多个斜率(每个自变量对应一个斜率)和一个截距。


(3)误差项:由于数据中存在随机噪声和不确定性因素,因此即使你找到了较佳拟合直线,也总会有一些点会偏离这条直线。这些偏离就是误差项所表示的。误差项的存在是不可避免的,但我们希望它越小越好,因为这意味着我们的模型能够更好地解释数据。


02、模型理论

回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析;如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。


线性回归模型试图找到自变量(解释变量)X和因变量(响应变量)Y之间的线性关系。这种关系可以表示为数学方程:

其中:

Y是因变量(响应变量)。

X1,X2,…,Xk 是自变量(解释变量)。

β0,β1,…,βk 是未知参数(回归系数)。

ϵ 是误差项,代表模型未能解释的变异性,通常假设它服从均值为0的正态分布。


在多元线性回归中,自变量可能有多个;而在一元线性回归中,只有一个自变量。


为了简化计算和求解过程,我们通常使用矩阵来表示这个问题。定义设计矩阵(自变量矩阵)X和因变量向量Y如下:

我们的目标是找到一组回归系数 β,使得模型预测值 Y^=Xβ 与实际观测值Y之间的误差平方和较小。即求解以下优化问题:

通过数学推导(涉及对误差平方和关于 β 的偏导数并令其为0),我们可以得到回归系数的解析解:

但需要注意的是,当 XTX不可逆(即存在多重共线性或特征数多于样本数)时,上述公式不能直接应用。此时,我们可以使用伪逆(Moore-Penrose伪逆)来求解,或者采用正则化方法(如岭回归或Lasso回归)来避免这个问题。


一旦我们得到了回归系数 β,就可以用它来预测新的因变量值或评估模型的拟合优度。预测值Y^ 可以通过将新的自变量值代入模型方程中来计算。模型的拟合优度可以通过各种统计指标来评估,如决定系数(R2)、均方误差(MSE)、均方根误差(RMSE)等。





http://www.kxrjsoft.com.cn
产品推荐

Development, design, production and sales in one of the manufacturing enterprises

您是第2633407位访客
版权所有 ©2024-09-17 京ICP备10040123号

北京天演融智软件有限公司 保留所有权利.

技术支持: 八方资源网 免责声明 管理员入口 网站地图