逻辑回归一般都应用于传统的建模方案,因其模型含义易解释,容易推广上线而得到大家的青睐
逻辑回归于广义线性模型:
逻辑回归是广义线性模型(Generalized Linear Models,GLM)的一种特殊形式。广义线性模型是线性回归模型的推广,它不强行改变数据的自然度量,允许数据具有非线性和非恒定方差结构。具体来说,GLM建立了响应变量的数学期望值与线性组合的预测变量之间的关系,通过链接函数将这两者联系起来。
逻辑回归的核心是使用对数几率函数(logit function)作为链接函数,将特征和目标变量之间的关系建模为概率。这使得逻辑回归不仅可以处理二分类问题,还能够处理多分类问题。在求解逻辑回归模型参数时,常用的方法是极大似然估计,该方法通过最大化似然函数来估计模型参数,使得模型对训练数据的预测尽可能接近实际观察到的结果。
逻辑回归Y变量取值和预测概率P取值范围:
在逻辑回归模型中,Y变量是二分类变量,其取值为0或1。这种取值方式常用于代表两种类别,例如在预测模型中,y=1可能表示某种情况的存在(如阳性、发病、有效等),而y=0则表示这种情况的不存在(如阴性、未发病、无效等)。
逻辑回归中的log-odds ratio公式是:,其中p是事件发生的概率,x是特征的线性函数。log-odds ratio是指事件发生的概率与不发生的概率之比的自然对数。这个公式可以用于计算逻辑回归模型中每个特征的系数 。
在逻辑回归模型中,链接函数起到了将线性回归的输出转化到[0,1]区间的作用,对数几率函数(logit function)就是这样一个链接函数。逻辑回归的预测结果是一个概率值,这个概率值是通过逻辑斯蒂函数(logistic function)计算得到的。
最大似然估计MLE:
在逻辑回归中,最大似然估计是一种优化策略,其目标是寻找一组参数,可以最大化观察到的数据出现的概率。具体来说,这意味着我们希望找到一组参数,使得在给定这组参数的情况下,我们所预测的样本出现的概率是最高的。
为了更形象地理解这个过程,我们可以想象一个场景:你有一堆广告投入和销售量的数据,你想通过这些数据来预测广告投入和销售量之间的关系。在这个过程中,最大似然估计就相当于你用这些数据作为工具,去“尽可能地找出”广告投入和销售量之间的最佳关系,也就是求得一组最佳的参数。
逻辑回归主要应用于解决分类问题,例如判断一个客户是否会购买某个商品,或者一个借款人是否会违约。在这个过程中,我们得到的计算结果通常是0-1之间的连续数字,这些数字代表了事件发生的可能性或概率。而逻辑回归的目标就是通过寻找一组最佳的参数,使我们预测的可能性尽可能接近真实情况。
在使用逻辑回归构建评分模型时,需要满足以下假设条件:
1. 因变量必须为分类变量,并且至少有一个自变量。这些自变量可以是连续的或者是分类的。
2. 数据服从伯努利分布,也就是说,样本的结果只有两种可能,例如0和1,正例和负例。同时,这两种概率的和为1。
3. 模型的输出是样本为正例的概率。这意味着我们需要将线性回归的输出通过sigmoid函数转换为概率值。
4. 观测不到的混杂因素是恒定的,这被称为平行线检验假设。也就是说,我们假设在给定X的条件下,Y的期望不会随着时间改变。
5. 误差项必须符合独立同分布,这意味着每一个误差项都与其他误差项无关,且都服从同一分布。文章来源:https://www.toymoban.com/news/detail-745878.html
6. 没有多重共线性问题,也就是自变量之间不存在高度相关性。如果存在高度相关性,那么这可能会导致模型过拟合。文章来源地址https://www.toymoban.com/news/detail-745878.html
到了这里,关于风险风控-逻辑回归理论基础的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!