【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月

这篇具有很好参考价值的文章主要介绍了【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、数据探索:

1.1 读取数据

1.2查看数据

1.3 数据预处理

二、字段描述

2.1 非离散型数据

2.2离散数值字段

三、数据建模

四、评估指标:

4.1:混淆矩阵

4.2: 准确率,回归率,F1

五、测试集准确率

六、模型优化


环境:使用python+jupter nodebook

数据:本文数据来源2023年【教学赛】金融数据分析赛题1:银行客户认购产品预测

赛题(数据)网址:【教学赛】金融数据分析赛题1:银行客户认购产品预测-天池大赛-阿里云天池

一、数据探索:

   1.1 读取数据

所需要的库包:

import pandas as pd
import numpy as np
trian=pd.read_csv("train.csv")
test=pd.read_csv("test.csv")

   1.2查看数据

        是否正常,有无异常值:

        查看统计量

print(df.describe().T)

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

        查看数据分布(散点图):

# 1 查看统计量
print(df.describe().T)
# 2 duration分箱展示
import matplotlib.pyplot as plt
import seaborn as sns

# 3.查看数据分布
# 分离数值变量与分类变量
Nu_feature = list(df.select_dtypes(exclude=['object']).columns)
Ca_feature = list(df.select_dtypes(include=['object']).columns)
Ca_feature.remove('subscribe')
col1=Ca_feature
plt.figure(figsize=(20,10))
j=1
for col in col1:
    ax=plt.subplot(4,5,j)
    ax=plt.scatter(x=range(len(df)),y=df[col],color='red')
    plt.title(col)
    j+=1
k=11
for col in col1:
    ax=plt.subplot(4,5,k)
    ax=plt.scatter(x=range(len(test)),y=test[col],color='cyan')
    plt.title(col)
    k+=1
plt.subplots_adjust(wspace=0.4,hspace=0.3)
plt.show()

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

数据相关图(热力图)

# # 4.数据相关图
from sklearn.preprocessing import LabelEncoder
lb = LabelEncoder()
cols = Ca_feature
for m in cols:
    df[m] = lb.fit_transform(df[m])
    test[m] = lb.fit_transform(test[m])
#
df['subscribe'] = df['subscribe'].replace(['no', 'yes'], [0, 1])

correlation_matrix = df.corr()
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, vmax=0.9, linewidths=0.05, cmap="RdGy")
plt.show()

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

查看数据是否有空值或者unkonw

#数据没有NA值但是有unknow值
train_set.isin(['unknown']).mean()*100 
test_set.isin(['unknown']).mean()*100 
# 工作,教育和沟通方式用众数填充

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

1.3 数据预处理

对训练集和测试集数据进行填充:

trian['default'].replace(['unknown'], test['default'].mode(), inplace=True)
trian['job'].replace(['unknown'], trian['job'].mode(), inplace=True)
trian['education'].replace(['unknown'], trian['education'].mode(), inplace=True)
trian['marital'].replace(['unknown'], trian['marital'].mode(), inplace=True)
trian['housing'].replace(['unknown'], trian['housing'].mode(), inplace=True)
trian['loan'].replace(['unknown'], trian['loan'].mode(), inplace=True)

# test.drop(['default'], inplace=True, axis=1)
test['default'].replace(['unknown'], test['default'].mode(), inplace=True)
test['job'].replace(['unknown'], test['job'].mode(), inplace=True)
test['education'].replace(['unknown'], test['education'].mode(), inplace=True)
test['marital'].replace(['unknown'], test['marital'].mode(), inplace=True)
test['housing'].replace(['unknown'], test['housing'].mode(), inplace=True)
test['loan'].replace(['unknown'], test['loan'].mode(), inplace=True)
print(trian["job"].value_counts())

二、字段描述

        2.1 非离散型数据

# #统计图
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
trian['subscribe'] = trian['subscribe'].replace(['no', 'yes'], [0,1])
plt.figure(figsize = [15,10])#画板大小
sns.barplot(x = "job", y ="subscribe" , data = trian)
x_1=["管理者","蓝领","技术员","服务员","经营者","退役人员","企业家","个体经营者","女佣","失业人员","学生"]
from matplotlib import font_manager
my_font = font_manager.FontProperties(fname='C:\Windows\Fonts\STHUPO.TTF',size=20)
# plt.xticks(range(len(x_1)),x_1,fontproperties = my_font)
plt.xticks(range(len(x_1)),x_1,fontsize=20,rotation=45)
plt.yticks(fontsize=15)
my= font_manager.FontProperties(size=20)
plt.xlabel("“客户身份”",fontproperties = my)
plt.ylabel("产品购买数量指数",fontproperties = my)
plt.title("客户购买银行产品意向图",fontdict={"size": 25})
plt.tight_layout()
plt.show()

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

import seaborn as sns
object_columns = ['job', 'marital', 'education', 'default', 'housing','loan', 'contact','month','day_of_week','poutcome']
#连续变量列名
num_columns = ['age', 'duration', 'campaign', 'pdays','previous', "cons_conf_index",'emp_var_rate',"cons_price_index","lending_rate3m","nr_employed"]
# # 统计图

# #统计图
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.figure(figsize = [10,10])#画板大小
sns.barplot(x = "marital", y ="subscribe" , data = trian)
x_1=["结婚"," 已婚","单身"]
from matplotlib import font_manager
my_font = font_manager.FontProperties(fname='C:\Windows\Fonts\STHUPO.TTF',size=20)
# plt.xticks(range(len(x_1)),x_1,fontproperties = my_font)
plt.xticks(range(len(x_1)),x_1,fontsize=20)
plt.yticks(fontsize=15)
my= font_manager.FontProperties(size=20)
plt.xlabel("客户婚姻状态",fontproperties = my)
plt.ylabel("产品购买数量指数",fontproperties = my)
plt.title("不同婚姻状态的客户购买银行产品意向图",fontdict={"size": 25})
plt.tight_layout()
plt.show()

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

# #统计图
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.figure(figsize = [10,8])#画板大小
sns.barplot(x = "education", y ="subscribe" , data = trian)
x_1=["大学学历"," 高中","基本9年","教授","基本4年","基本6年","文盲"]
from matplotlib import font_manager
my_font = font_manager.FontProperties(fname='C:\Windows\Fonts\STHUPO.TTF',size=20)
# plt.xticks(range(len(x_1)),x_1,fontproperties = my_font)
plt.xticks(range(len(x_1)),x_1,fontsize=25)
plt.yticks(fontsize=15)
my= font_manager.FontProperties(size=20)
plt.xlabel("客户教育程度",fontproperties = my)
plt.ylabel("产品购买数量指数",fontproperties = my)
plt.title("不同教育程度的客户购买银行产品意向图",fontdict={"size": 25})
plt.tight_layout()
plt.show()
print(trian["education"].value_counts())

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

object_columns = ['job', 'marital', 'education', 'default', 'housing','loan', 'contact','month','day_of_week','poutcome']
# #统计图
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.figure(figsize = [8,8])#画板大小
sns.barplot(x = "month", y ="subscribe" , data = trian)
# x_1=["大学学历"," 高中","基本9年","教授","基本4年","基本6年","文盲"]
from matplotlib import font_manager
# my_font = font_manager.FontProperties(fname='C:\Windows\Fonts\STHUPO.TTF',size=20)
# plt.xticks(range(len(x_1)),x_1,fontproperties = my_font)
plt.xticks(fontsize=25)
plt.yticks(fontsize=15)
my= font_manager.FontProperties(size=20)
plt.xlabel("月份",fontproperties = my)
plt.ylabel("产品购买数量指数",fontproperties = my)
plt.title("不同月份最后联系客户购买银行产品意向图",fontdict={"size": 25})
plt.tight_layout()
plt.show()

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

 其余字段大同小异

下面结合结婚状态字段对产品进行分析:

# print(trian["marital"].value_counts())
marital_colum=["married" ,"single" ,"divorced"]
# # 选取某列含有特定“marital”的行
trian1 = trian[trian['marital'].isin([marital_colum[0]])]
trian1.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
print(trian1["marital"].value_counts())
plt.figure(figsize=[10, 10])
sns.barplot(x="default", y="subscribe", hue="education", data=trian1, palette="muted")
x_1=["yes"," no"]
from matplotlib import font_manager
plt.xticks(range(len(x_1)),x_1,fontsize=25)
plt.yticks(fontsize=15)
my= font_manager.FontProperties(size=20)
plt.xlabel("有无违约记录",fontproperties = my)
plt.ylabel("产品购买数量指数",fontproperties = my)
plt.title("已婚",fontdict={"size": 25})
plt.legend(prop = {'size':18})
plt.tight_layout()
plt.show()

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

# print(trian["marital"].value_counts())
marital_colum=["married" ,"single" ,"divorced"]
# # 选取某列含有特定“marital”的行
trian1 = trian[trian['marital'].isin([marital_colum[1]])]
trian1.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
print(trian1["marital"].value_counts())
plt.figure(figsize=[10, 10])
sns.barplot(x="default", y="subscribe", hue="education", data=trian1, palette="muted")
x_1=["no"," yes"]
from matplotlib import font_manager
plt.xticks(range(len(x_1)),x_1,fontsize=25)
plt.yticks(fontsize=15)
my= font_manager.FontProperties(size=20)
plt.xlabel("有无违约记录",fontproperties = my)
plt.ylabel("产品购买数量指数",fontproperties = my)
plt.title("单身",fontdict={"size": 25})
plt.legend(prop = {'size':18})
plt.tight_layout()
plt.show()

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

2.2离散数值字段

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
z=0
while(z<=9):

    trian1 = trian.loc[:,[num_columns[z],'subscribe']]
    # ax = plt.subplot(3, 3, z + 1)
    f = pd.melt(trian1, value_vars=num_columns[z], id_vars='subscribe')
    g = sns.FacetGrid(f,col='variable', hue='subscribe')
    z = z + 1
    g = g.map(sns.distplot,"value",bins=20)
    plt.show()

       【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

三、数据建模

from lightgbm.sklearn import LGBMClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score, auc, roc_auc_score

X = df.drop(columns=['id', 'subscribe'])
Y = df['subscribe']
testA = test.drop(columns='id')
# 划分训练及测试集
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=1)

from xgboost import XGBClassifier
import xgboost as xgb
from sklearn.metrics import precision_score, recall_score, f1_score
model = xgb.XGBClassifier()
# 交叉验证
result1 = []
mean_score1 = 0
n_folds = 10
import time
start =time.time()
kf = KFold(n_splits=n_folds, shuffle=True, random_state=2022)
for train_index, test_index in kf.split(X):
    x_train = X.iloc[train_index]
    y_train = Y.iloc[train_index]
    x_test = X.iloc[test_index]
    y_test = Y.iloc[test_index]
    model.fit(x_train, y_train)
    y_pred1 = model.predict_proba((x_test))[:, 1]
    print('验证集AUC:{}'.format(roc_auc_score(y_test, y_pred1)))
    mean_score1 += roc_auc_score(y_test, y_pred1) / n_folds
    y_pred_final1 = model.predict_proba((testA))[:, 1]
    y_pred_test1 = y_pred_final1
    result1.append(y_pred_test1)
end =time.time()
print('程序运行时间为: %s Seconds'%(end-start))

使用验证集AUC模型评估模型:

 ROC曲线:

 【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

AUC值: 

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

四、评估指标:

4.1:混淆矩阵

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

4.2: 准确率,回归率,F1

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

五、测试集准确率

输出文件为:

cat_pre1 = sum(result1) / n_folds
ret1 = pd.DataFrame(cat_pre1, columns=['subscribe'])
ret1['subscribe'] = np.where(ret1['subscribe'] > 0.5, 'yes', 'no').astype('str')
ret1.to_csv('./XGB预测.csv', index=False)

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

最终提交结果为:

【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月,人工智能

六、模型优化

 本文章未调参,如果进行网格优化调参可以让模型进一步变好文章来源地址https://www.toymoban.com/news/detail-735815.html

到了这里,关于【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据分析案例-基于XGBoost算法构造房屋租赁价格评估模型

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 喜欢大数据分析项目的小伙伴,希望可以多多支持该系列的其他文章 大数据分析案例合集

    2023年04月19日
    浏览(58)
  • 大数据分析案例-基于XGBoost算法构建二手车价格评估模型

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 喜欢大数据分析项目的小伙伴,希望可以多多支持该系列的其他文章 大数据分析案例合集

    2023年04月09日
    浏览(45)
  • 基于Spark技术的银行客户数据分析

    申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址 全文共计4672字,阅读大概需要3分钟 大数据实验教学系统 案例:银行客户数据分析 某银行积累有大量客户数据,现希望大数据分析团队使用Spark技术对这些数据进行分析,以期获得有价值的信息。 本案例用

    2024年02月09日
    浏览(44)
  • 基于python集成学习算法XGBoost农业数据可视化分析预测系统

    基于python机器学习XGBoost算法农业数据可视化分析预测系统,旨在帮助农民和相关从业者更好地预测农作物产量,以优化农业生产。该系统主要包括四个功能模块。 首先,农作物数据可视化模块利用Echarts、Ajax、Flask、PyMysql技术实现了可视化展示农作物产量相关数据的功能。

    2024年01月21日
    浏览(46)
  • 基于python机器学习XGBoost算法农业数据可视化分析预测系统

    基于python机器学习XGBoost算法农业数据可视化分析预测系统,旨在帮助农民和相关从业者更好地预测农作物产量,以优化农业生产。该系统主要包括四个功能模块。 首先,农作物数据可视化模块利用Echarts、Ajax、Flask、PyMysql技术实现了可视化展示农作物产量相关数据的功能。

    2024年01月21日
    浏览(65)
  • 大数据分析案例-基于LightGBM算法构建银行客户流失预测模型

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 喜欢大数据分析项目的小伙伴,希望可以多多支持该系列的其他文章 大数据分析案例合集

    2024年02月12日
    浏览(52)
  • 大数据分析案例-基于决策树算法构建员工离职预测模型

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.项目背景 2.项目简介 2.1项目说明

    2024年01月24日
    浏览(53)
  • 大数据分析案例-基于决策树算法构建金融反欺诈分类模型

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.项目背景 2.项目简介

    2024年02月03日
    浏览(47)
  • 数据分析案例-基于亚马逊智能产品评论的探索性数据分析

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 一、实验背景 1.1背景概述 1.2实验目的 二、数据描述 2.1数据来源 2.2变量介绍 三、实验

    2024年02月22日
    浏览(53)
  • 大数据分析案例-基于决策树算法预测ICU患者是否需要插管

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 喜欢大数据分析项目的小伙伴,希望可以多多支持该系列的其他文章 大数据分析案例合集

    2024年02月02日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包