机器学习——回归与聚类算法

这篇具有很好参考价值的文章主要介绍了机器学习——回归与聚类算法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

线性回归

机器学习——回归与聚类算法

广义的线性模型 

不仅是自变量是一次方的是线性模型,参数是一次方的也是线性模型,比如:

机器学习——回归与聚类算法

总结:线性关系的一定是线性模型,线性模型的不一定是线性关系。 

损失函数

机器学习——回归与聚类算法

优化损失 

求解模型中的w,使得损失最小。

正规方程

理解:X为特征值矩阵,Y为目标值矩阵,直接求到最好的结果(矩阵求导得极值再得最值)

缺点:当特征过多过复杂时,求解速度太慢而且得不到结果

from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
import numpy as np
import pandas as pd


def linear1():
    """
    正规方程的优化方法对波士顿房价进行预测
    :return:
    """
    # 1)获取数据
    # 因为波士顿的数据因为道德问题在新版本中从scikit-learn中移除了,所以这里换种方式而不是直接load_boston()
    data_url = "http://lib.stat.cmu.edu/datasets/boston"
    raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
    data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
    target = raw_df.values[1::2, 2]

    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(data, target, random_state=22)

    # 3)标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4)预估器
    estimator = LinearRegression()
    estimator.fit(x_train, y_train)

    # 5)得出模型
    print("正规方程-权重系数为:\n", estimator.coef_)
    print("正规方程-偏置为:\n", estimator.intercept_)

    # 6)模型评估
    y_predict = estimator.predict(x_test)
    print("预测房价:\n", y_predict)
    error = mean_squared_error(y_test, y_predict)
    print("正规方程-均方误差为:\n", error)

    return None


if __name__ == "__main__":
    linear1()

梯度下降

机器学习——回归与聚类算法

机器学习——回归与聚类算法

理解:为学习率,需要手动指定(超参数),旁边的整体表示方向沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后更新w值。

使用:面对训练数据规模十分庞大的任务,能够找到较好的结果。 

from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDRegressor
import numpy as np
import pandas as pd


def linear2():
    """
    梯度下降的优化方法对波士顿房价进行预测
    :return:
    """
    # 1)获取数据
    # 因为波士顿的数据因为道德问题在新版本中从scikit-learn中移除了,所以这里换种方式而不是直接load_boston()
    data_url = "http://lib.stat.cmu.edu/datasets/boston"
    raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
    data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
    target = raw_df.values[1::2, 2]

    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(data, target, random_state=22)

    # 3)标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4)预估器
    # learning_ratew为学习率的算法,constant指的是每次下降的度都一样,eta0是学习率,max_iter是迭代次数
    estimator = SGDRegressor(learning_rate="constant", eta0=0.01, max_iter=10000)
    estimator.fit(x_train, y_train)

    # 5)得出模型
    print("梯度下降-权重系数为:\n", estimator.coef_)
    print("梯度下降-偏置为:\n", estimator.intercept_)

    # 6)模型评估
    y_predict = estimator.predict(x_test)
    print("预测房价:\n", y_predict)
    error = mean_squared_error(y_test, y_predict)
    print("梯度下降-均方误差为:\n", error)

    return None


if __name__ == "__main__":
    linear2()

欠拟合

  • 原因:学习的数据特征太少。比如没有掌握足够特征,认为骡子是马。
  • 解决:增加数据的特征数量

过拟合

  • 原因:原始特征过多,存在嘈杂特征。比如将白作为是马的一个特征, 认为黑马不是马。
  • 解决:正则化

机器学习——回归与聚类算法机器学习——回归与聚类算法机器学习——回归与聚类算法 

正则化 

公式中,决定了正则化的程度,当越大时,正则化的作用就越强,模型的复杂度就越小。 

L2正则化(加了该正则化了回归叫Ridge回归即岭回归)

作用:可以使得其中一些很小,接近于0,消弱某个特征的影响,更适合处理相对平滑的数据(惩罚项的形式虽然让所有参数都受到惩罚,但是惩罚程度不同,较大的参数值会受到更严重的惩罚,因此它会让一些不重要的参数的值趋近于零,但是不会将这些参数完全消除,而是将它们变得非常小)。

优点:有效地减轻过拟合问题,同时保持参数的平滑性,使得模型的泛化能力更强。

机器学习——回归与聚类算法

注:是对于样本的预测结果,m为样本数,n为特征数。

L1正则化(加了该正则化了回归叫LASSO回归)

作用:可以其中一些直接为0,删除这个特征的影响,更适合处理高维稀疏数据。

优点:实现特征选择,即通过让某些参数等于零,来消除对模型无用的特征,从而提高模型的精度和可解释性。

机器学习——回归与聚类算法

from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge
import numpy as np
import pandas as pd


def linear3():
    """
    岭回归方法对波士顿房价进行预测
    :return:
    """
    # 1)获取数据
    # 因为波士顿的数据因为道德问题在新版本中从scikit-learn中移除了,所以这里换种方式而不是直接load_boston()
    data_url = "http://lib.stat.cmu.edu/datasets/boston"
    raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
    data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
    target = raw_df.values[1::2, 2]

    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(data, target, random_state=22)

    # 3)标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4)预估器
    # 其实SGDRegressor默认也是岭回归,即参数penalty="l2"
    estimator = Ridge(alpha=0.5, max_iter=10000)
    estimator.fit(x_train, y_train)

    # 5)得出模型
    print("岭回归-权重系数为:\n", estimator.coef_)
    print("岭回归-偏置为:\n", estimator.intercept_)

    # 6)模型评估
    y_predict = estimator.predict(x_test)
    print("预测房价:\n", y_predict)
    error = mean_squared_error(y_test, y_predict)
    print("岭回归-均方误差为:\n", error)

    return None


if __name__ == "__main__":
    linear3()

逻辑回归

逻辑回归其实是在线性回归的基础上增添,让它可用于分类,用以解决二分类问题。

输入

机器学习——回归与聚类算法

线性回归的输出就是逻辑回归的输入,即把h(w)代入到sigmoid函数的自变量中。 

sigmoid函数

机器学习——回归与聚类算法  代入后即 机器学习——回归与聚类算法

机器学习——回归与聚类算法

损失及其优化

损失

逻辑回归的损失,称之为对数似然损失。 

综合完整损失函数(与上面的是等价的式子)

精确率与召回率

混淆矩阵 

机器学习——回归与聚类算法

TP:True Positive               FN:False Negative

FP:False Positive             TN:True Negative

精确率(Precision)与召回率(Recall)

机器学习——回归与聚类算法

机器学习——回归与聚类算法机器学习——回归与聚类算法

ROC曲线与AUC指标

TPR与FTR

  • TPR=TP/(TP+FN)——所有真实类别为1的样本中,预测类别为1的比例(即召回率)
  • FPR=FP/(FP+TN)—— 所有真实类别为0的样本中,预测类别为1的比例

ROC曲线

机器学习——回归与聚类算法

AUC指标 

机器学习——回归与聚类算法

  • AUC只能用来评价二分类
  • AUC非常适合评价样本不平衡中的分类器性能
from sklearn.metrics import classification_report, roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
import numpy as np
import pandas as pd


def cancer_demo():
    """
    逻辑回归对癌症进行分类
    :return:
    """
    # 1)读取数据
    path = "https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data"
    column_name = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                   'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
                   'Normal Nucleoli', 'Mitoses', 'Class']
    data = pd.read_csv(path, names=column_name)

    # 2)缺失值处理
    # 替换-》np.nan
    data = data.replace(to_replace="?", value=np.nan)
    # 删除缺失样本
    data.dropna(inplace=True)

    # 3)划分数据集
    # 筛选特征值和目标值
    x = data.iloc[:, 1:-1]
    y = data["Class"]
    x_train, x_test, y_train, y_test = train_test_split(x, y)

    # 4)标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 5)预估器流程
    estimator = LogisticRegression()
    estimator.fit(x_train, y_train)

    # 6)模型评估
    # 方法1:直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)

    # 方法2:计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为:\n", score)

    # 查看精确率、召回率、F1-score
    report = classification_report(y_test, y_predict, labels=[2, 4], target_names=["良性", "恶性"])
    print(report)
    # y_true:每个样本的真实类别,必须为0(反例),1(正例)标记
    # 将y_test 转换成 0 1
    y_true = np.where(y_test > 3, 1, 0)
    # roc曲线面积即auc值
    score = roc_auc_score(y_true, y_predict)
    print("roc_auc_score:",score)

    return None


if __name__ == "__main__":
    cancer_demo()

无监督学习—K-Means算法

无监督是因为没有目标值,聚类一般在分类之前做。

K-Means聚类步骤

  1. 随机选取K个特征空间的点作为初始的聚类中心(中心点可以不是原本就存在的点)
  2. 分别计算其他每个点到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别
  3. K个聚类都完成之后,重新计算出每个聚类的新中心点(算坐标平均值得点)
  4. 如果计算出的新中心点与原中心点一样,那么结束,否则重新进行第二步(迭代)

K-Means性能评估指标

轮廓系数

注:对于每个点i为已聚类数据中的样本,为i到其他簇的所有样本的距离最小值,为i到本身簇的距离平均值,最终计算出所有的样本点的轮廓系数平均值。

机器学习——回归与聚类算法

如果此时;若,则,故。

轮廓系数越趋于1效果越好,即“高内聚,低耦合”。

from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score
import pandas as pd


def kmeans_demo():
    """
    用K-Means将用户根据偏好分类
    :return:
    """
    # 1)获取数据
    order_products = pd.read_csv("./instacart/order_products__prior.csv")
    products = pd.read_csv("./instacart/products.csv")
    orders = pd.read_csv("./instacart/orders.csv")
    aisles = pd.read_csv("./instacart/aisles.csv")

    # 2)合并表
    # order_products__prior.csv:订单与商品信息
    # 字段:order_id, product_id, add_to_cart_order, reordered
    # products.csv:商品信息
    # 字段:product_id, product_name, aisle_id, department_id
    # orders.csv:用户的订单信息
    # 字段:order_id,user_id,eval_set,order_number,….
    # aisles.csv:商品所属具体物品类别
    # 字段: aisle_id, aisle
    # 合并aisles和products aisle和product_id
    tab1 = pd.merge(aisles, products, on=["aisle_id", "aisle_id"])
    tab2 = pd.merge(tab1, order_products, on=["product_id", "product_id"])
    tab3 = pd.merge(tab2, orders, on=["order_id", "order_id"])

    # 3)找到user_id和aisle之间的关系
    table = pd.crosstab(tab3["user_id"], tab3["aisle"])
    data = table[:10000]

    # 4)PCA降维
    # 1)实例化一个转换器类
    transfer = PCA(n_components=0.95)
    # 2)调用fit_transform
    data_new = transfer.fit_transform(data)

    # 5)K-Means预估器流程
    estimator = KMeans(n_clusters=3, n_init=10)  # n_clusters聚类数,n_init迭代次数,默认10次
    estimator.fit(data_new)
    y_predict = estimator.predict(data_new)
    print(y_predict[:300])  # 查看前300个预测结果

    # 6)模型评估-轮廓系数
    sc = silhouette_score(data_new, y_predict)
    print("轮廓系数:", sc)

    return None


if __name__ == "__main__":
    kmeans_demo()

 缺点:容易收敛到局部最优解。文章来源地址https://www.toymoban.com/news/detail-424758.html

模型的保存与加载

from sklearn.externals import joblib

# 保存模型
joblib.dump(estimator, "my_model.pkl")
# 加载模型
estimator = joblib.load("my_model.pkl")

到了这里,关于机器学习——回归与聚类算法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习】十大算法之一 “线性回归”

      作者主页: 爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主 爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域. https://blog.csdn.net/Code_and516?type=blog 个人简介:打工人。 持续分

    2024年02月09日
    浏览(30)
  • 机器学习算法:线性回归、逻辑回归、决策树和随机森林解析

    引言 机器学习算法是人工智能领域的核心,它们用于解决各种问题,从预测房价到图像分类。本博客将深入探讨四种常见的机器学习算法:线性回归、逻辑回归、决策树和随机森林。 线性回归 什么是线性回归? 线性回归是一种用于建立连续数值输出的机器学习模型的算法。

    2024年02月10日
    浏览(40)
  • 机器学习算法实战(scikit-learn版本)---线性回归

    目录 文章目标: 1,导入库  2,导入数据集 3,缩放/归一化训练数据 4,创建并拟合回归模型 5,查看参数 6,预测 7,可视化  有一个开源的、商业上可用的机器学习工具包,叫做[scikit-learn](https://scikit-learn.org/stable/index.html)。这个工具包包含了你在本课程中要使用的许多算法的实

    2024年02月05日
    浏览(31)
  • 【算法小记】——机器学习中的概率论和线性代数,附线性回归matlab例程

    内容包含笔者个人理解,如果错误欢迎评论私信告诉我 线性回归matlab部分参考了up主DR_CAN博士的课程 在回归拟合数据时,根据拟合对象,可以把分类问题视为一种简答的逻辑回归。在逻辑回归中算法不去拟合一段数据而是判断输入的数据是哪一个种类。有很多算法既可以实现

    2024年01月24日
    浏览(32)
  • 机械学习模型训练常用代码(随机森林、聚类、逻辑回归、svm、线性回归、lasso回归,岭回归)

    更多pandas操作请参考添加链接描述pandas对于文件数据基本操作 导入的包sklearn 字符串编码处理,LabelEncoder TfidfVectorizer结合TruncatedSVD 排除某一列,例如 如果需要用到回归则换成RandomForestRegressor 数据在dc_matrix里面 绘制距离 #加入到表里面 师范,保存文本模型,使用其转换,调

    2023年04月14日
    浏览(34)
  • 【经验分享】分类算法与聚类算法有什么区别?白话讲解

    经常有人会提到这个问题,从我个人的观点和经验来说2者最明显的特征是:分类是有具体分类的数量,而聚类是没有固定的分类数量。 你可以想象一下,分类算法就像是给你一堆水果,然后告诉你苹果、香蕉、橙子分别应该放在哪里。它已经知道每个水果属于哪个类别,所

    2024年02月21日
    浏览(25)
  • 机器学习常识 3: 分类、回归、聚类

    摘要 : 本贴描述分类、回归、聚类问题的基本概念. 机器学习常识 2: 数据类型从输入数据的角度来进行讨论, 这里从输出数据, 或者目标的角度来讨论. 分类 是指将一个样本预测为给定类别之一. 也称为该样本打标签. 例 1: 如果我去向那个女生表白, 她会同意吗? (Y/N) 由于可能的

    2024年02月06日
    浏览(30)
  • 机器学习与深度学习——使用paddle实现随机梯度下降算法SGD对波士顿房价数据进行线性回归和预测

    随机梯度下降(SGD)也称为增量梯度下降,是一种迭代方法,用于优化可微分目标函数。该方法通过在小批量数据上计算损失函数的梯度而迭代地更新权重与偏置项。SGD在高度非凸的损失表面上远远超越了朴素梯度下降法,这种简单的爬山法技术已经主导了现代的非凸优化。

    2024年02月03日
    浏览(43)
  • 机器学习:什么是分类/回归/聚类/降维/决策

    目录 学习模式分为三大类:监督,无监督,强化学习 监督学习基本问题 分类问题 回归问题 无监督学习基本问题 聚类问题 降维问题 强化学习基本问题 决策问题 如何选择合适的算法 我们将涵盖目前「五大」最常见机器学习任务: 回归 分类 聚类 降维 决策 分类是监督学习

    2024年02月12日
    浏览(32)
  • 机器学习——线性回归/岭回归/Lasso回归

    线性回归会用到python第三方库:sklearn.linear_model中的LinearRegression 导入第三方库的方法:from sklearn.linear_model import LinearRegression 使用LinearRegression(二维数据,一维数据)进行预测,其中数据类型可以是pandas中的DataFrame或者series,也可以是numpy中的array数据,但维度一定要正确输入。

    2024年02月10日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包