天池案例赛--银行产品认购预测

这篇具有很好参考价值的文章主要介绍了天池案例赛--银行产品认购预测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大赛是以银行产品认购预测为背景,根据记录的用户信息来推测该银行的用户是否会购买银行的产品。

赛题提供的数据集有3万条(训练集2.25万,测试集0.75万),包括20个特征变量,本文构建了XGBoost、LGBM、随机森林、逻辑回归、支持向量机、朴素贝叶斯分类器;得分分别为96.19、96.05、95.55、92.43、92.43、90.17

一、数据概览

每条数据都记录了如下信息:

天池案例赛--银行产品认购预测

赛题提供的测试集中包含22500条数据,其中订购银行产品的占13. 12%,用户年龄集中在25-60岁之间

二、数据探索

数据集共含21个变量,其中subscribe(是否订购)为预测变量,分类型变量、数值型变量各有10个:

天池案例赛--银行产品认购预测
  1. 查看数据分布

分类变量分布:

天池案例赛--银行产品认购预测

数值型变量分布:

天池案例赛--银行产品认购预测

可以看出训练集数据和测试集数据分布大体一致,且均不服从正态分布

  1. 对比分析

用tableau绘图展示:

2.1客户基本信息

天池案例赛--银行产品认购预测

倾向购买银行产品的群体为年轻且工作了一段时间的青年群体,婚姻状况为单身/已婚,学历多为本科,多从事行政、技术岗

2.2个人信用指标

天池案例赛--银行产品认购预测

房贷差异不大,信用记录多为良好,无借贷的群体购买银行产品概率较高

2.3市场情况

天池案例赛--银行产品认购预测

高物价、就业情况好转的情况下,更容易认购银行产品,此时同业拆借率也不太高

2.4营销情况

天池案例赛--银行产品认购预测

移动电话联系,时长10分钟内,春末夏初期间联系更易购买银行产品

天池案例赛--银行产品认购预测

在有意愿购买银行产品的人群中,本次与上次营销活动联系客户次数均较少,距上次联系间隔3、4个月内或者从未联系过

  1. 相关性

3.1数值变量相关性

天池案例赛--银行产品认购预测

相关性较强的几个变量为:duration,pdays,previous;lending_rate3m,emp_var_rate

除此之外,其余数值变量相关性均不高

3.2分类变量相关性

一般地,使用熵进行分类变量的相关性计算。

熵衡量了不确定性,条件熵是X条件下Y的不确定程度,互信息就是在X条件下减少的熵,X与Y的互信息除以X,Y的熵开根号衡量了X与Y的相关性熵分类变量与目标变量的相关性

天池案例赛--银行产品认购预测

可以看出与subscribe相关性较强的几个变量:month,default,contact,job和marital

三、数据预处理

  1. 异常值识别与处理

箱线图:

天池案例赛--银行产品认购预测

训练集中,这四个变量---年龄、通话时长、本次营销活动联系客户的次数以及上次营销活动联系客户的次数 存在异常值,且异常值占比如下:

天池案例赛--银行产品认购预测

异常值占比不高,而训练集的缺失值占比为0:

天池案例赛--银行产品认购预测

可以看出该数据集较为干净,而且删除异常值,会导致训练集和测试集的分布不一致,影响建模的准确性,故而不对异常值进行处理。

  1. 特征编码&数据分箱

对各类别数据进行onehot/labelcode编码----基于XGboost模型

对各数值型数据进行归一化处理-----基于SVM模型

对各连续数值进行离散化(数据分箱处理)-----基于逻辑回归和朴素贝叶斯分类

计算出各变量的IV值(IV值---衡量特征对目标变量预测能力的影响,对后续建模提供参考):

天池案例赛--银行产品认购预测

在分类问题中,对逻辑回归算法和朴素贝叶斯,分箱是极为重要且必须的。而对于树模型,如lightGBM、XGBoost等模型,分箱不是一个必须操作,但是却能够预防模型的过拟合并使模型的稳定性更好。

本文选择决策树分箱---用要进行分箱的这个特征与Y进行决策树的拟合,决策树训练后的结果会提供内部节点的阈值,这个阈值就会成为分箱的边界。

天池案例赛--银行产品认购预测

四、训练集建模

使用递归特征消除法,选择最优特征组合。本文选择随机森林作为分类器进行递归特征消除

使用cross_val_score选择最优评分的模型:

天池案例赛--银行产品认购预测
天池案例赛--银行产品认购预测

当特征数为19时,评分最高,各变量重要性排名为:

天池案例赛--银行产品认购预测

将train_data划分为训练和测试集,各个模型的准确率、精确率和召回率如下:

  1. XGBoost

天池案例赛--银行产品认购预测
天池案例赛--银行产品认购预测
天池案例赛--银行产品认购预测
  1. LGBM

天池案例赛--银行产品认购预测
天池案例赛--银行产品认购预测
天池案例赛--银行产品认购预测
  1. 随机森林

天池案例赛--银行产品认购预测
天池案例赛--银行产品认购预测
  1. 逻辑回归

天池案例赛--银行产品认购预测
天池案例赛--银行产品认购预测
  1. 支持向量机

天池案例赛--银行产品认购预测
天池案例赛--银行产品认购预测
  1. 朴素贝叶斯

天池案例赛--银行产品认购预测
天池案例赛--银行产品认购预测

最后将上述模型的准确率、精确率、召回率汇总如下表:

天池案例赛--银行产品认购预测

可以看出XGBoost、LGBM、随机森林、逻辑回归和朴素贝叶斯分类对训练集的分类效果较好,而支持向量机效果一般

五、测试集结果预测

将选出的特征对测试集中的数据进行建模,预测是否订购,提交结果如下:

得分最高的模型为XGBoost,得分为:

天池案例赛--银行产品认购预测

本文构建的模型可有效识别购买银行产品的用户,对于减少营销成本实现精准营销提供参考优化建议:

银行的营销积极性与市场外部条件会对银行产品的购买产生重要影响,低频率联系,学会制造新鲜感,是银行营销的技巧,同时,市场回暖,就业好转,物价指数较高时,也会增加用户购买银行产品的概率文章来源地址https://www.toymoban.com/news/detail-483202.html

到了这里,关于天池案例赛--银行产品认购预测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据分析案例-基于决策树算法构建银行客户流失预测模型

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 喜欢大数据分析项目的小伙伴,希望可以多多支持该系列的其他文章 大数据分析案例合集

    2024年02月02日
    浏览(48)
  • 大数据分析案例-基于LightGBM算法构建银行客户流失预测模型

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 喜欢大数据分析项目的小伙伴,希望可以多多支持该系列的其他文章 大数据分析案例合集

    2024年02月12日
    浏览(52)
  • 天池医疗AI大赛[第一季] Rank5解决方案

    一、赛题说明 数据格式 本次大赛数据集包含数千份高危患者的低剂量肺部CT影像(mhd格式)数据,每个影像包含一系列胸腔的多个轴向切片。每个影像包含的切片数量会随着扫描机器、扫描层厚和患者的不同而有差异。原始图像为三维图像。这个三维图像由不同数量的二维图

    2024年04月25日
    浏览(47)
  • 阿里云天池大赛赛题(机器学习)——阿里云安全恶意程序检测(完整代码)

    阿里云作为国内最大的云服务提供商,每天都面临着网络上海量的恶意攻击。 本题目提供的一堆恶意文件数据,包括感染性病毒、木马程序、挖矿程序、DDoS木马、勒索病毒等等,总计6亿条数据,每个文件数据会有对API调用顺序及线程等相关信息,我们需要训练模型,将测试

    2024年02月07日
    浏览(84)
  • 获奖名单公示|荣耀时刻,「第5届天池全球数据库大赛」决赛圆满收官

    日前,由阿里云主办、阿里云瑶池数据库和天池平台承办的 “ 第五届天池全球数据库大赛 ” 圆满收官。   历经过去4个多月的层层选拔, 2大赛道20支队伍 从 7047支 参赛战队中脱颖而出,成功晋级大赛决赛圈。最终 , 来自蔚来汽车等企业组队的 「带对听花」队伍 和 来自北

    2024年02月04日
    浏览(37)
  • 天池竞赛——工业蒸汽量预测(完整代码详细解析)

    1.1 赛题背景 火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很

    2024年02月11日
    浏览(45)
  • pytorch分类和回归:阿里天池宠物年龄预测

    阿里天池宠物年龄预测 https://tianchi.aliyun.com/competition/ 实验了多种方法,最终成绩并不是特别好,比赛结束后如果有更好的思路,欢迎指教。 直接回归 分段分类 分段求概率,求加权期望,其实相当于回归。 三种方法的表现 其他方法: 拟合分布,而不是one-hot 排序的方式 数

    2024年02月15日
    浏览(68)
  • 天池长期赛:二手车价格预测(422方案分享)

    前言 一、赛题介绍及评测标准 二、数据探索(EDA) 1.读取数据、缺失值可视化 2.特征描述性统计 3.测试集与验证集数据分布 4.特征相关性 三、数据清洗 四、特征工程 1.构建时间特征 2.匿名特征交叉 3.平均数编码 五、建模调参 六、模型融合 总结 赛题属于回归类型,相比于

    2024年02月01日
    浏览(45)
  • 阿里天池金融数据分析赛题2:保险反欺诈预测baseline

    好久没写baseline了,最近逛比赛的时候突然看到阿里新人赛又出新题目了,索性写个baseline给初学者,昨天晚上把比赛数据下载了,然后随便跑了个模型,AUC就达到了0.95,排在了第二名,下图是我排名的截图,所以题目还是比较简单的,适合初学者入手。 比赛地址:https://t

    2024年02月16日
    浏览(46)
  • 一零六五、零基础入门数据挖掘-心跳信号分类预测(阿里云天池赛)

    目录 赛制官方链接 赛题简介 赛制说明 长期赛(2021年7月~) 正式赛(3月12日 - 5月12日) 大赛组织 赛题背景 赛题数据 评测标准 结果提交  代码实现   赛制官方链接 零基础入门数据挖掘-心跳信号分类预测_学习赛_天池大赛-阿里云天池 赛题简介 本次新人赛是Datawhale与天池

    2024年02月16日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包