企业Spark案例--酒店数据分析实战提交

1年前作者：cz学java分类：Toy博客阅读(39)违法举报

这篇具有很好参考价值的文章主要介绍了企业Spark案例--酒店数据分析实战提交。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

第1关：数据清洗--过滤字段长度不足的且将出生日期转：

package com.yy

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object edu{

/**********Begin**********/

// 此处可填写相关代码

case class Person(id:String,Name:String,CtfTp:String,CtfId:String,Gender:String,Birthday:String,Address:String,Zip:String,Duty:String,Mobile:String,Tel:String,Fax:String,EMail:String,Nation:String,Taste:String,Education:String,Company:String,Family:String,Version:String,Hotel:String,Grade:String,Duration:String,City:String)

/**********End**********/

def main(args: Array[String]): Unit = {

val spark = SparkSession

.builder()

.appName("Spark SQL")

.master("local")

.config("spark.some.config.option", "some-value")

.getOrCreate()

val rdd = spark.sparkContext.textFile("file:///root/files/part-00000-4ead9570-10e5-44dc-80ad-860cb072a9ff-c000.csv")

/**********Begin**********/

// 清洗脏数据（字段长度不足 23 的数据视为脏数据）

val rdd1: RDD[String] = rdd.filter(x=>{

val e=x.split(",",-1)

文章来源地址https://www.toymoban.com/news/detail-490340.html

到了这里，关于企业Spark案例--酒店数据分析实战提交的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Spark大数据分析与实战课后答案
一、填空题 1、Scala语言的特性包含面向对象编程、函数式编程的、静态类型的、可扩展的、可以交互操作的。 2、在Scala数据类型层级结构的底部有两个数据类型，分别是 Nothing 和 Null 。 3、在Scala中，声明变量的有 var 声明变量和 val 声明常量。 4、在Scala中，获取
2024年01月17日
浏览(38)
Spark大数据分析与实战笔记（第二章 Spark基础-03）
又回到了原点，就从现在开始我的新生活吧。章节概要：Spark运行架构与原理 I. 引言 A. 概述Spark B. Spark的特点和优势 II. Spark运行架构概述 A. Spark集群模式 B. Spark运行模式 C. Spark执行引擎：Spark Core D. Spark计算模块：RDD E. Spark数据抽象模块：DataFrame和Dataset F. Spark资源管理器：
2024年02月03日
浏览(40)
Spark大数据分析与实战笔记（第二章 Spark基础-05）
成长是一条必走的路路上我们伤痛在所难免。在大数据处理和分析领域，Spark被广泛应用于解决海量数据处理和实时计算的挑战。作为一个快速、可扩展且易于使用的分布式计算框架，Spark为开发人员提供了丰富的API和工具来处理和分析大规模数据集。其中，Spark-Shell是Spar
2024年02月03日
浏览(48)
Spark大数据分析与实战笔记（第二章 Spark基础-01）
宁愿跑起来被拌倒无数次，也不愿规规矩矩走一辈子，就算跌倒也要豪迈的笑。 Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室，它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快，而且内置了丰富的API，使得我们能够更加容易编写程序。 Spark下
2024年02月03日
浏览(39)
Spark大数据分析与实战笔记（第二章 Spark基础-04）
“春风十里，不如你。” 这句来自现代作家安妮宝贝的经典句子，它表达了对他人的赞美与崇拜。每个人都有着不同的闪光点和特长，在这个世界上，不必去羡慕别人的光芒，自己所拥有的价值是独一无二的。每个人都有无限的潜力和能力，只要勇敢展现自己，就能在人生舞
2024年02月03日
浏览(40)
Spark大数据分析与实战笔记（第二章 Spark基础-02）
人生就像赛跑，不在乎你是否第一个到达尽头，而在乎你有没有跑完全程。 Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室，它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快，而且内置了丰富的API，使得我们能够更加容易编写程序。请参考《
2024年02月03日
浏览(41)
Spark大数据分析与实战课后习题参考答案
项目一：一、选择题 DCCDAD 二、简答题 1、Hadoop MapReduce要求每个步骤间的数据序列化到磁盘，所以I/O成本很高，导致交互分析和迭代算法开销很大；Spark 提供了内存计算，把中间结果放到内存中，带来了更高的迭代运算效率。通过支持有向无环图（DAG）的分布式并行计算的编
2024年02月11日
浏览(10)
Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-02）
人生很长，不必慌张。你未长大，我要担当。传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。 RDD是Spark提供的最重要的抽象概念
2024年02月22日
浏览(149)
大数据实战（hadoop+spark+python）：淘宝电商数据分析
虚拟机：Ubuntu 20.04.6 LTS docker容器 hadoop-3.3.4 spark-3.3.2-bin-hadoop3 python，pyspark, pandas，matplotlib mysql，mysql-connector-j-8.0.32.jar（下载不需要积分什么的）淘宝用户数据以上的技术积累需要自行完成创建容器（##ubuntu的代码块，在ubuntu中运行，无特殊说明的在docker中运行）更新软件
2024年02月11日
浏览(15)
Spark 大数据实战：基于 RDD 的大数据处理分析
之前笔者参加了公司内部举办的一个 Big Data Workshop，接触了一些 Spark 的皮毛，后来在工作中陆陆续续又学习了一些 Spark 的实战知识。本文笔者从小白的视角出发，给大家普及 Spark 的应用知识。 Spark 集群是基于 Apache Spark 的分布式计算环境，用于处理大规模数据集的计算任
2024年01月25日
浏览(12)