【从0开始离线数仓项目】——新能源汽车数仓项目介绍

9月前作者：Lingxw_w 分类：Toy博客阅读(40) 违法举报

这篇具有很好参考价值的文章主要介绍了【从0开始离线数仓项目】——新能源汽车数仓项目介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目录

1、数据仓库概念

2、项目需求及架构设计

3、集群资源规划设计

4、车辆日志字段说明

1、数据仓库概念

数据仓库（Data Warehouse）是为企业提供数据支持，用以协助企业制定决策、改进业务流程和提高产品质量等方面的工具。它可以接收多种类型的输入数据，如业务数据、日志数据和爬虫数据等。然而，在本项目中，我们只对日志数据进行统计和分析。

具体而言，我们将主要关注汽车行驶过程中传感器数据这一特定类型的日志数据，它记录了汽车在运行过程中各个传感器的使用情况以及相关数据。这些数据对于我们改进汽车性能、诊断问题以及分析驾驶行为等都非常重要。

【从0开始离线数仓项目】——新能源汽车数仓项目介绍,从0开始离线数仓项目,数据挖掘,数据仓库,大数据

2、项目需求及架构设计

项目需求：

【从0开始离线数仓项目】——新能源汽车数仓项目介绍,从0开始离线数仓项目,数据挖掘,数据仓库,大数据

技术选型：

【从0开始离线数仓项目】——新能源汽车数仓项目介绍,从0开始离线数仓项目,数据挖掘,数据仓库,大数据

核心架构：

【从0开始离线数仓项目】——新能源汽车数仓项目介绍,从0开始离线数仓项目,数据挖掘,数据仓库,大数据

标记车辆的维度信息（定点DataX全量同步），先将数据上传到HFDS，用Hive创建表格映射；汽车行驶日志，用Flume上传至数仓，ODS对数据进行保存，在DWS中完成公共子查询，最后将ADS导出到Mysql，进行机器学习。

框架版本选型

本项目使用的Apache框架版本：

【从0开始离线数仓项目】——新能源汽车数仓项目介绍,从0开始离线数仓项目,数据挖掘,数据仓库,大数据

服务器选型

【从0开始离线数仓项目】——新能源汽车数仓项目介绍,从0开始离线数仓项目,数据挖掘,数据仓库,大数据

集群规模

【从0开始离线数仓项目】——新能源汽车数仓项目介绍,从0开始离线数仓项目,数据挖掘,数据仓库,大数据

3、集群资源规划设计

在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务，测试集群用于上线前代码编写和测试。

生产集群

参考腾讯云EMR官方推荐部署

【从0开始离线数仓项目】——新能源汽车数仓项目介绍,从0开始离线数仓项目,数据挖掘,数据仓库,大数据

Master节点：管理节点，保证集群的调度正常进行；主要部署NameNode、ResourceManager、HMaster等进程；非HA模式下数量为1，HA模式下数量为2。

Core节点：为计算及存储节点，您在HDFS中的数据全部存储于core节点中，因此为了保证数据安全，扩容core节点后不允许缩容；主要部署DataNode、NodeManager、RegionServer等进程。非HA模式下数量≥2，HA模式下数量≥3。

Common节点：为HA集群Master节点提供数据共享同步以及高可用容错服务；主要部署分布式协调器组件，如ZooKeeper、JournalNode等节点。非HA模式数量为0，HA模式下数量≥3。

消耗内存的分开部署。

数据传输数据比较紧密的放在一起（Kafka、clickhouse）。

客户端尽量放在一到两台服务器上，方便外部访问。

有依赖关系的尽量放到同一台服务器（例如：Ds-worker和hive/spark）。

Master	Master	core	core	core	common	common	common
nn	nn	dn	dn	dn	JournalNode	JournalNode	JournalNode
rm	rm	nm	nm	nm
					zk	zk	zk
hive	hive	hive	hive	hive
		kafka	kafka	kafka
spark	spark	spark	spark	spark
datax	datax	datax	datax	datax
Ds-master	Ds-master	Ds-worker	Ds-worker	Ds-worker
mysql	mysql
flume	flume	flume

测试集群服务器规划

服务名称	子服务	服务器 hadoop102	服务器 hadoop103	服务器 hadoop104
HDFS	NameNode	√
	DataNode	√	√	√
	SecondaryNameNode			√
Yarn	NodeManager	√	√	√
Yarn	Resourcemanager		√
Zookeeper	Zookeeper Server	√	√	√
Flume（采集日志）	Flume	√	√
Kafka	Kafka	√	√	√
Flume （消费Kafka日志）	Flume			√
Hive		√	√	√
MySQL	MySQL	√
DataX		√	√	√
Spark		√	√	√
DolphinScheduler	ApiApplicationServer	√
	AlertServer	√
	MasterServer	√
	WorkerServer	√	√	√
	LoggerServer	√	√	√
服务数总计		15	11	11

4、车辆日志字段说明

本次处理的数据全部为车辆日志数据，即车辆在行驶过程中每30秒发送的车辆自身状态的记录。除了日志数据之外，我们还需要处理车辆维度数据，这些数据存储在数据库中。

车辆日志数据对于我们分析和预测车辆性能、维护需求和问题诊断等方面至关重要。而车辆维度数据则提供了有关车辆的其他信息，如生产日期、品牌和型号等，这些信息可以帮助我们更好地理解车辆的性能和特性。在本次数据处理中，我们将同时处理这两类数据。

车辆日志数据

车辆日志数据为Json格式的文本文件。每行为一个完整的Json串，其中字段含义如下：

字段名	字段类型
vin	车辆唯一编码
timestamp	日志采集时间
car_status	车辆状态
charg_status	充电状态
execution_mode	运行模式
velocity	车速
mileage	里程
voltage	总电压
electric_current	总电流
soc	SOC
dc_status	DC-DC状态
gear	挡位
insulation_resistance	绝缘电阻
motor_count	驱动电机个数
motor_list	驱动电机列表
fuel_cell_voltage	燃料电池电压
fuel_cell_current	燃料电池电流
fuel_cell_consume_rate	燃料消耗率
fuel_cell_temperature_probe_count	燃料电池温度探针总数
fuel_cell_temperature	燃料电池温度值
fuel_cell_max_temperature	氢系统中最高温度
fuel_cell_max_temperature_probe_id	氢系统中最高温度探针号
fuel_cell_max_hydrogen_consistency	氢气最高浓度
fuel_cell_max_hydrogen_consistency_probe_id	氢气最高浓度传感器代号
fuel_cell_max_hydrogen_pressure	氢气最高压力
fuel_cell_max_hydrogen_pressure_probe_id	氢气最高压力传感器代号
fuel_cell_dc_status	高压DC-DC状态
engine_status	发动机状态
crankshaft_speed	曲轴转速
fuel_consume_rate	燃料消耗率
max_voltage_battery_pack_id	最高电压电池子系统号
max_voltage_battery_id	最高电压电池单体代号
max_voltage	电池单体电压最高值
min_temperature_subsystem_id	最低电压电池子系统号
min_voltage_battery_id	最低电压电池单体代号
min_voltage	电池单体电压最低值
max_temperature_subsystem_id	最高温度子系统号
max_temperature_probe_id	最高温度探针号
max_temperature	最高温度值
min_voltage_battery_pack_id	最低温度子系统号
min_temperature_probe_id	最低温度探针号
min_temperature	最低温度值
alarm_level	最高报警等级
alarm_sign	通用报警标志
custom_battery_alarm_count	可充电储能装置故障总数N1
custom_battery_alarm_list	可充电储能装置故障代码列表
custom_motor_alarm_count	驱动电机故障总数N2
custom_motor_alarm_list	驱动电机故障代码列表
custom_engine_alarm_count	发动机故障总数N3
custom_engine_alarm_list	发动机故障代码列表
other_alarm_count	其他故障总数N4
other_alarm_list	其他故障代码列表
battery_count	单体电池总数
battery_pack_count	单体电池包总数
battery_voltages	单体电池电压值列表
battery_temperature_probe_count	单体电池温度探针总数
battery_pack_temperature_count	单体电池包总数
battery_temperatures	单体电池温度值列表

其中电机列表为嵌套字段，其含义如下：

字段名	字段说明
id	驱动电机序号
status	驱动电机状态
controller_temperature	驱动电机控制器温度
rev	驱动电机转速
torque	驱动电机转矩
temperature	驱动电机温度
voltage	电机控制器输入电压
electric_current	电机控制器直流母线电流

车辆维度数据

字段名	字段说明
id	车辆唯一编码
type_id	车型ID
type	车型
sale_type	销售车型
trademark	品牌
company	厂商
seating_capacity	准载人数
power_type	车辆动力类型
charge_type	车辆支持充电类型
category	车辆分类
weight_kg	总质量（kg）
warranty	整车质保期（年/万公里）

本项目参考尚硅谷课程：

【尚硅谷大数据项目之新能源汽车数仓，离线数据仓库项目实战】 https://www.bilibili.com/video/BV1uF411o74x/?p=7&share_source=copy_web&vd_source=2d7beee727c4b0510439779fd78c22f7

附录：基于Stable Diffusion生成的新能源Tesla。

【从0开始离线数仓项目】——新能源汽车数仓项目介绍,从0开始离线数仓项目,数据挖掘,数据仓库,大数据文章来源地址https://www.toymoban.com/news/detail-540059.html

到了这里，关于【从0开始离线数仓项目】——新能源汽车数仓项目介绍的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【从0开始离线数仓项目】——数据仓库的环境搭建（1）

目录一、服务器环境准备 1.2 编写集群分发脚本xsync 1.3 SSH无密登录配置 1.4 JDK准备 1.5 环境变量配置说明二、集群所有进程查看脚本三、Zookeeper安装 3.1 分布式安装部署 3.2 ZK集群启动停止脚本 3.3 客户端命令行操作 CentOS 7 怎么从命令行模式切换到图形界面模式切换至root权限

2024年02月13日
浏览(38)
小米汽车，能否在新能源汽车江湖站稳脚跟？

最近，圈内都在传小米汽车亦庄工厂已试生产近一个月，每周可产50辆样车，正在为首款新能源汽车量产做最后的准备。此前的业绩交流会上，小米集团总裁卢伟冰透露，小米汽车结束了夏测且进展非常顺利，2024年上半年量产的目标明确。同时，界面新闻的报道也指出，小米

2024年02月09日
浏览(46)
新能源汽车软件开发设计规范

新能源汽车软件开发设计规范版本： 1.0 编制：校对：审核：会签：

2024年02月21日
浏览(84)
关于新能源汽车充电桩现状与探讨

摘要：一直都是一个发展中的大国，但是由于我国近代的资本积累过于缺乏，导致我国工业化的发展都是以牺牲环境为代价的，近些年来，随着居民的生活水平不断提高，越来越的人买了汽车，汽车尾气的排放自然也越来越多，想要缓解我国的环境污染，要尽可能的推广新能

2024年02月16日
浏览(57)
新能源汽车充电桩的相关标准

目前，新能源汽车充电桩的相关标准主要分为三种：国家标准、国家电网标准以及能源局标准三种。 1.国家标准 2011年国家标准主要分为三个方面：通用要求、交流与直流、充电机与BMS通信，具体如下：(1)《GBT 18487.1-2011电动汽车传导充电系统第1部分：通用要求》; (2)《GBT 20

2024年02月16日
浏览(66)
面向新能源智能汽车的新基建

一．什么是未来所需要的新基建？二．如何正确认识新基建？三．如何实现新基建有效投资/最大化新基建后期价值？汽车电动化、智能化离不开新型基础设施的支持。根据《新能源汽车产业发展规划（2021-2035）》和《智能汽车创新发展战略》，可以分为充换电基础设施、

2024年02月14日
浏览(47)
基于SSM的新能源汽车在线租赁系统

末尾获取源码开发语言：Java Java开发工具：JDK1.8 后端框架：SSM 前端：采用Vue技术开发数据库：MySQL5.7和Navicat管理工具结合服务器：Tomcat8.5 开发软件：IDEA / Eclipse 是否Maven项目：是随着科学技术的飞速发展，社会的方方面面、各行各业都在努力与现代的先进技术接轨，通

2024年02月09日
浏览(50)
新能源汽车充电桩控制主板有哪些特点

你是否好奇，新能源汽车充电桩控制主板是什么样子的?它有哪些特点?接下来，我们将为您揭秘。控制主板是充电桩的大脑，它决定了充电桩的性能和稳定性。睿讯微充电桩主板拥有良好的整机抗干扰能力，能够有效地防止外部信号和电磁波的干扰，确保充电的准确性。它

2024年02月12日
浏览(64)
新能源汽车发展迅猛，市场份额已突破50%

随着可持续发展理念越来越深入人心，我国在交通出行领域迈向了新的阶段，新能源汽车在我国的市场占有率已成功突破50%大关。数据显示，中国已经由昔日的燃油汽车市场领导者转变为如今的新能源汽车市场领跑者，新能源取代燃油成定局。据悉，从今年开年至今，我国新

2024年04月23日
浏览(43)
典型新能源汽车热管理系统方案分析

目前行业具有代表性的热管理系统有PTC电加热方案、热泵方案（特斯拉八通阀热泵、吉利直接式热泵）、威马的柴油加热方案以及以理想为代表的插电式混动车方案。小鹏P7整车热管理方案分析（PTC电加热方案）小鹏P7作为小鹏汽车的第2款纯电车型，整车热管理系统采用一体

2024年04月11日
浏览(43)