泰坦尼克号幸存者预测

这篇具有很好参考价值的文章主要介绍了泰坦尼克号幸存者预测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文所有的代码及数据均存放与https://github.com/MADMAX110/Titanic
泰坦尼克号幸存者预测挑战赛是一个非常受欢迎的机器学习实践项目。这是 Kaggle.com 上最受欢迎的比赛之一。泰坦尼克号幸存者预测
数据中有3个文件:train.csv,test.csv,和gender_submit .csv。
train.csv包含一部分乘客的详细信息。
test.csv没有显示是否幸存——这些信息是隐藏的,你需要预测是否幸存。
gender_submit .csv文件是一个示例,你的输出文件格式应该和它一样。
首先遍历一下titianic的所有文件并输出

import numpy as np 
import pandas as pd 
import os
for dirname, _, filenames in os.walk('titanic'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

可以看到数据集有三个文件
泰坦尼克号幸存者预测
再来看一下train.csv的文件结构

train_data = pd.read_csv("titanic/train.csv")
train_data.head()

泰坦尼克号幸存者预测
再看一下test.csv的文件结构

test_data = pd.read_csv("titanic/test.csv")
test_data.head()

泰坦尼克号幸存者预测
可以计算一下男人和女人各自的生存率

women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women) / len(women)
print("% of women who survived:", rate_women)

men = train_data.loc[train_data.Sex == 'male']["Survived"]
rate_men = sum(men) / len(men)
print("% of men who survived:", rate_men)

使用随机森林算法构建泰坦尼克生存预测模型,并在测试集上得到预测结果。

from sklearn.ensemble import RandomForestClassifier

#训练集标签
y = train_data["Survived"]
#特征名
features = ["Pclass", "Sex", "SibSp", "Parch"]
#训练集特征
X = pd.get_dummies(train_data[features])
#测试集特征
X_test = pd.get_dummies(test_data[features])

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
#模型训练
model.fit(X, y)
#在测试集上预测
predictions = model.predict(X_test)

#模型训练
output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived':predictions})
#在训练集上预测
output.to_csv('result.csv', index=False)

该代码使用随机森林算法构建分类模型,主要步骤为:

  1. 指定训练标签y和特征名features
  2. 使用get_dummies进行onehot编码,获得训练特征X和测试特征X_test
  3. 初始化随机森林模型,设置100棵树,最大深度为5
  4. 调用fit方法在训练数据上训练模型
  5. 调用predict在测试集上预测,得到预测结果predictions

所以,这段代码实现了使用随机森林算法训练分类模型并在新数据上进行预测的流程。随机森林是一个非常实用的机器学习算法,可以处理分类与回归问题,获得较高的预测准确度。
在这个泰坦尼克生存预测的例子中,我们使用随机森林构建了一个初步的分类模型,并在测试集上得到了生存预测结果,这为我们进一步优化模型和特征工程提供了基础。我们还可以评估在测试集上的准确度、AUC等指标,判断模型的表现。文章来源地址https://www.toymoban.com/news/detail-482120.html

到了这里,关于泰坦尼克号幸存者预测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 速通——决策树(泰坦尼克号乘客生存预测案例)

    一、决策树 1、概述         树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果 2、建立过程         1. 特征选择:选取有较强分类能力的特征。         2. 决策树生成:根据选择的特征生成决策树。  

    2024年01月21日
    浏览(37)
  • 【机器学习kaggle赛事】泰坦尼克号生存预测

    目录 写在前面  数据集情况查看 数据清洗 Embarked: Fare Age Cabin  特征工程 1,探究Sex与Survived的相关性  2,探究Pcalss与Survived的关联性  3,Embarked:不同的上船地点对生存率是否有影响  ​4,Name与Survived的相关性  5,Cabin与Survived之间的相关性 6,探究孤身一人和有家人陪伴的

    2023年04月23日
    浏览(37)
  • Kaggle实战入门:泰坦尼克号生还预测(进阶版)

    Kaggle实战入门:泰坦尼克号生还预测(基础版)对机器学习的全流程进行了总体介绍。本文继续以泰坦尼克号生还预测为例,对机器学习中的特征工程、模型构建进行深入解读。 数据集及代码下载 由于针对训练数据集、测试数据集均要做空值填充、编码转换、离散化、归一

    2024年02月02日
    浏览(29)
  • 深度学习项目:泰坦尼克号生存预测【附完整源码】

    数据处理 建立模型 训练模型 评估模型 模型预测 保存模型 数据文件: 2.1 泰塔尼克号数据 数据描述: RMS 泰坦尼克号的沉没是历史上最为人熟知的海难事件之一。 1912 年 4 月 15 日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造

    2024年02月09日
    浏览(40)
  • 基于用Hive泰坦尼克号乘客信息存储与分析

    实现以下任务: 创建数据库taitan 创建乘客信息表 导入数据到表中 统计获救与死亡情况 统计舱位分布情况 统计港口登船人数分布情况 统计性别与生存率的关系 统计客舱等级与生存率的关系 统计登船港口与生存率的关系 1.创建一个内/外部表,指定数据的存放路径。 (1)创建

    2024年02月06日
    浏览(36)
  • 深度学习之构建MPL神经网络——泰坦尼克号乘客的生存分析

          大家好,我是带我去滑雪!       本期使用泰坦尼克号数据集,该数据集的响应变量为乘客是生存还是死亡(survived,其中1表示生存,0表示死亡),特征变量有乘客舱位等级(pclass)、乘客姓名(name)、乘客性别(sex,其中male为男性,female为女性)、乘客年龄(ag

    2024年02月05日
    浏览(32)
  • 用决策树或随机森林解决泰坦尼克号乘客生存预测(内附数据集百度网盘)

     实现该模型的训练要用到的主要算法和实现思路是   首先的首先当然是导包啦   然后就是读取文件里面的数据进来了 数据集下载:百度网盘 链接:https://pan.baidu.com/s/1slaouE4Es37U8u0U-kDJnw 提取码:ss5o   接着是进行对数据进行基本的处理了,以下是作者的处理方法: 第一步是

    2024年02月15日
    浏览(35)
  • 泰坦尼克号沉船数据分析与可视化、数据建模与分类预测【Python | 机器学习-Sklearn】

    前言:泰坦尼克号,不只是卡梅隆导演的经典电影,它是一个真实存在的悲剧,也是电影的故事背景与题材。作为一个IT人,分析事实还得看数据,了解到泰坦尼克号沉船幸存者多为老人、小孩和妇女,而牺牲者多为年轻的男士,这样的历史数据,让我感受到了人性之美与善

    2024年02月02日
    浏览(37)
  • pytorch坦尼克号幸存者预测(二分类)

    任务目标:根据《泰坦尼克号登船人员名单》上的个人信息预测其是否生还 数据集:《泰坦尼克号登船人员名单》,自取https://download.csdn.net/download/weixin_43721000/87740848 数据集解释: 第一列age ,表示的是年龄(数值数据) 第二列cabin,表示客舱号(分类数据 :字符串类型)

    2024年02月01日
    浏览(23)
  • 【用unity实现100个游戏之17】从零开始制作一个类幸存者肉鸽(Roguelike)游戏2(附项目源码)

    本节紧跟着上一篇,主要实现对象池程序化生成敌人和属性配置。 新增不同敌人预制体,并配置默认跑步动画 新增一个敌人类的脚本,实现了敌人向玩家移动并面对玩家的功能。注释已添加在相应的代码行上。 挂载脚本,配置参数,一般敌人移速都是比主角低 我们放几个敌

    2024年03月16日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包