ML_4 线性回归算法

2023-03-12 07:49:14

一、简单的线性回归

　　只有一个自变量（特征）；方程是线性的；回归：label为连续数字型

　　假设我们找到了最佳拟合的直线方程：y = ax + b,则对于每个样本点x_i ，根据我们的直线方程，预测值为：y_i_hat = a*x_i + b

　　最佳拟合：误差最小（为了方便求导绝对误差改为了平方误差）：∑(y_i_hat-y_i)^2

损失函数：描述了单个样本预测值和真实值之间误差的程度。用来度量模型一次预测的好坏。

风险函数：损失函数的期望，理论模型f(x)关于联合分布P(x,y)的平均意义下的损失

经验风险：模型f(x)关于训练数据集的平均损失，称为经验风险或经验损失

区别：期望风险是模型关于联合分布的期望损失，经验风险是模型关于训练样本数据集的平均损失。根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险。

因此很自然地想到用经验风险去估计期望风险。但是由于训练样本个数有限，可能会出现过度拟合的问题，即决策函数对于训练集几乎全部拟合，但是对于测试集拟合效果过差。因此需要对其进行矫正：

　　结构风险最小化：当样本容量不大的时候，经验风险最小化容易产生“过拟合”的问题，为了“减缓”过拟合问题，提出了结构风险最小理论。结构风险最小化为经验风险与复杂度同时较小。结构风险：在经验风险上加上一个正则化项(regularizer)，或者叫做罚项(penalty) 。正则化项是J(f)是函数的复杂度再乘一个权重系数（用以权衡经验风险和复杂度）

最小二乘法：让总的误差的平方最小的就是真实值。这是基于，如果误差是随机的，应该围绕真值上下波动。

（高斯证明过：如果误差的分布是正态分布，那么最小二乘法得到的就是最有可能的值。）

从中总结出一类机器学习算法的基本思路：

通过分析问题，确定问题的损失函数或者效用函数；
然后通过最优化损失函数或者效用函数，获得机器学习的模型。

#线性回归算法的实现
import numpy as np
import matplotlib.pyplot as plt
x = np.array([1.,2.,3.,4.,5.])
y = np.array([1.,3.,2.,3.,5,])
plt.scatter(x,y)
plt.axis([0,6,0,6])
plt.show()
   #拟合
x_mean=np.mean(x)
y_mean=np.mean(y)
num=0.0
d=0.0
for x_i,y_i in zip(x,y): # zip函数打包成[(x_i,y_i)...]的形式
    num+=(x_i-x_mean)*(y_i-y_mean)
    d+=(x_i-x_mean)**2
    
a=num/d
b=y_mean-a*(x_i-x_mean)
y_hat= a * x + b
plt.scatter(x,y)    # 绘制散点图
plt.plot(x,y_hat,color='r')    # 绘制直线
plt.axis([0,6,0,6])
plt.show()

x_predict=6
y_predict=a*x_predict+b
print(y_predict)
    #向量化运算——dot
    #用for循环串行计算的效率远远低于向量化后，用矩阵方式并行计算的效率
import time     
a=np.random.rand(1000000)
b=np.random.rand(1000000)
tic= time.time() #返回当前时间的时间戳
c = np.dot(a, b)
toc = time.time()
print("c:%f" % c)
print("vectorized version:" + str(1000*(toc-tic)) + "ms")  #计算时间


c = 0
tic = time.time()
for i in range(1000000):
    c += a[i] * b[i]
toc = time.time()
print("c: %f" % c)
print("for loop:" + str(1000*(toc-tic)) + "ms")

#工程文件
import numpy as np
class SimpleLinearRegression:
    def __int__(self):
        self.a=None
        self.b=None
    def fit(self,x_train,y_train):
        """根据训练数据集x_train,y_train训练模型"""
        assert x_train.ndim ==1, \
            "简单线性回归模型仅能够处理一维特征向量"
        assert len(x_train) == len(y_train), \
            "特征向量的长度和标签的长度相同"
        x_mean = np.mean(x_train)
        y_mean = np.mean(y_train)
        num = (x_train - x_mean).dot(y_train - y_mean)  # 分子
        d = (x_train - x_mean).dot(x_train - x_mean)    # 分母
        self.a_ = num / d
        self.b_ = y_mean - self.a_ * x_mean

        return self   
    def predict(self,x_predict):
        """给定待预测数据集x_predict，返回表示x_predict的结果向量"""
        assert x_predict.ndim == 1, \
            "简单线性回归模型仅能够处理一维特征向量"
        assert self.a_ is not None and self.b_ is not None, \
            "先训练之后才能预测"
        return np.array([self._predict(x) for x in x_predict])        
        
    def _predict(self, x_single):
        """给定单个待预测数据x_single，返回x_single的预测结果值"""
        return self.a_ * x_single + self.b_

    def __repr__(self):
        """返回一个可以用来表示对象的可打印字符串"""
        return "SimpleLinearRegression()"


    #调用

from myAlgorithm.SimpleLinearRegression import SimpleLinearRegression

x = np.array([1.,2.,3.,4.,5.])
y = np.array([1.,3.,2.,3.,5,])
x_predict = np.array([6])
reg = SimpleLinearRegression()
reg.fit(x,y)
reg.predict(x_predict)
reg.a_
reg.a_

二、多元线性回归

这种计算方法，缺点是时间复杂度较高：O(n^3)，在特征比较多的时候，计算量很大。优点是不需要对数据进行归一化处理，原始数据进行计算参数，不存在量纲的问题（多选线性没必要做归一化处理）

#多元回归
from sklearn.metrics import r2_score
class LinearRegression:

    def __init__(self):
        """初始化Linear Regression模型"""
        self.coef_ = None    # 系数（theta0~1 向量）
        self.interception_ = None   # 截距（theta0 数）
        self._theta = None  # 整体计算出的向量theta

    def fit_normal(self, X_train, y_train):
        """根据训练数据X_train，y_train训练Linear Regression模型"""
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train must be equal to the size of y_train"
        # 正规化方程求解
        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        self._theta = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y_train)

        self.interception_ = self._theta[0]
        self.coef_ = self._theta[1:]
        return self

    def predict(self, X_predict):
        """给定待预测的数据集X_predict，返回表示X_predict的结果向量"""
        assert self.interception_ is not None and self.coef_ is not None, \
            "must fit before predict"
        assert X_predict.shape[1] == len(self.coef_), \
            "the feature number of X_predict must be equal to X_train"
        X_b = np.hstack([np.ones((len(X_predict), 1)), X_predict])
        y_predict = X_b.dot(self._theta)
        return y_predict

    def score(self, X_test, y_test):
        """很倔测试机X_test和y_test确定当前模型的准确率"""
        y_predict = self.predict(self, X_test)
        return r2_score(y_test, y_predict)
    

    def __repr__(self):
        return "LinearRegression()"

#__str__和__repr__
#如果要把一个类的实例变成 str，就需要实现特殊方法__str__()
#默认情况下，__repr__() 会返回和调用者有关的 “类名+object at+内存地址”信息。
#当然，我们还可以通过在类中重写这个方法，从而实现当输出实例化对象时，输出我们想要的信息。

# =============================================================================
# 其实在代码中，思想很简单，就是使用公式即可。其中有一些知识点：
# 1、np.hstack(tup)：参数tup可以是元组，列表，或者numpy数组，返回结果为numpy的数组。按列顺序把数组给堆叠起来（加一个新列）。
# 2、np.ones()：返回一个全1的n维数组，有三个参数：shape（用来指定返回数组的大小）、dtype（数组元素的类型）、order（是否以内存中的C或Fortran连续（行或列）顺序存储多维数据）。后两个参数都是可选的，一般只需设定第一个参数。（类似的还有np.zeros()返回一个全0数组）
# 3、numpy.linalg模块包含线性代数的函数。使用这个模块，可以计算逆矩阵、求特征值、解线性方程组以及求解行列式等。inv函数计算逆矩阵 
# 4、T：array的方法，对矩阵进行转置。 
# 5、dot：点乘
# =============================================================================

码农公寓

相关文章