大数据学习第十二天(hadoop概念)

这篇具有很好参考价值的文章主要介绍了大数据学习第十二天(hadoop概念)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、服务器之间数据文件传递

        1)服务器之间传递数据,依赖ssh协议

        2)http协议是web网站之间的通讯协议,用户可已通过http网址访问到对应网站数据

        3)ssh协议是服务器之间,或windos和服务器之间传递的数据的协议。支持shell指令的传输

        4)在linux中默认自带ssh客户端,可以使用ssh指令进行服务器连接

                ssh 用户@ip地址或域名

大数据学习第十二天(hadoop概念),学习,hadoop,大数据

大数据学习第十二天(hadoop概念),学习,hadoop,大数据

大数据学习第十二天(hadoop概念),学习,hadoop,大数据

大数据学习第十二天(hadoop概念),学习,hadoop,大数据

ssh免密登录

每次登录不需要再输入密码

分别在node1、node2、node3上执行如下命令

1)生成密钥

        ssh-keygen

2)分别拷贝密钥

        ssh-copy-id node1

        ssh-copy-id node2

        ssh-copy-id node3

3)基于ssh协议进行服务器之间的文件或者目录的传输

使用指令scp

        scp -r 本机文件或目录路径 目标服务器名:目标服务器路径

大数据学习第十二天(hadoop概念),学习,hadoop,大数据

大数据学习第十二天(hadoop概念),学习,hadoop,大数据

2、解压和压缩

        tar xvf 压缩包文件

        x 代表解压

        v 显示解压详情

        f 代表解压文件

        1)压缩

                tar cvf 压缩包名.tar.gz 文件或者目录

3、数据导论[了解]

日常生活中不断产生各类数据,通过对各类数据的分析,得到用户的行为习惯,发现用户的数据价值

4、大数据诞生[了解]

随着用户数据增多传统数据处理方式无法满足海量数据处理的需求,此时引入分布式技术

将海量数据进行分布式的存储,计算,资源调度

可以统一管理多台服务器进行存储和计算,把多台服务器当成一个整体

使用hadoop实现分布式存储,计算和资源调度

5、大数据概述[了解]

大数据主要解决海量数据的存储和计算

海量数据

excel KB MB 1MB=1024KB

mysql GB TB 1GB =1024 MB 1TB =1024GB

大数据 PB,EB(海量数据) 1PB=1024TB

KB < MB < GB < TB < PB < EB < ZB < YB

6、大数据的特点

  • 数据量大

  • 数据种类多

    • 结构化数据

    • 半结构化数据

      • xml

      • json

    • 非结构数据

      • 文本数据

  • 数据低价值密度

    • 分析用户的消费习惯

      • 用户注册基本信息 姓名,性别,年龄 1个

      • 用户的购买信息 订单数据 手机,2023-10-22 100个

      • 用户浏览信息 浏览哪些商品 100个

      • 用户访问信息 访问网站时间,地点,设备 100000条

      • 1000201条数 有价值的数据200条

  • 增长速度快

    • 每天都会产生大量数据

  • 数据结果质量高

    • 对海量数据结果更接近真实情况

7、大数据软件生态[了解]

存储:Apache Hadoop HDFS、Apache HBase、Apache Kudu、云平台

计算:Apache Hadoop MapReduce、Apache Spark、Apache Flink

传输:Apache Kafka、Apache Pulsar、Apache Flume、Apache Sqoop

8、Apache Hadoop概述[了解]

        1)Hadoop的功能组件

HDFS分布式文件存储系统: 负责海量数据的存储工作

MapReduce分布式计算框架: 负责海量数据的计算工作

Yarn分布式资源调度工具: 负责分布式集群的资源调度工作

        2)Hadoop发展

创始人: 道格·卡丁

Hadoop发行时间: 2008年

hadoop的发展受谷歌的三篇论文影响, 后被称为大数据发展的三驾马车

        3)Hadoop版本

社区版: 开源免费

  • 优点: 更新速度快,技术新

  • 缺点: 兼容性差不稳定

商业版: CDH 将所有大数据相关组件都重写了一遍并进行了精细测试解决了兼容性问题和稳定性问题

  • 优点: 兼容稳定性好

  • 确定: 技术旧,收费

注意: 在企业级开发中我们使用的大多是商业版hadoop, CDH版本Hadoop在6.2.4版本之前是不收费的.

9、为什么需要分布式存储[了解]

数据体量过大,存储在同一台服务器上空间不足,所以需要对于服务器进行扩展,多台服务共同存储超大文件

存储原理就是将大文件进行分割,分割后,将数据存储在不同的服务器内部

此时不仅可以提供多台服务器的存储空间,同时可以增加服务器的读写效率,cpu,内存,网络带宽等.文章来源地址https://www.toymoban.com/news/detail-850616.html

到了这里,关于大数据学习第十二天(hadoop概念)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机网络----第十二天

                              交换机端口安全技术和链路聚合技术 用于在同vlan内部隔离用户; 同一隔离组端口不能通讯,不同隔离组端口可以通讯; 含义:把连接到同一台交换机的多个物理端口捆绑为一个逻辑端口 静态链路聚合:双方不会协商聚合参数 动态链路聚

    2024年04月14日
    浏览(29)
  • Hadoop概念学习(无spring集成)

    分布式的文件存储系统 三个核心组件 但是现在已经发展到很多组件的s 或者这个图 官网地址: https://hadoop.apache.org hadoop历史可以看这个: https://zhuanlan.zhihu.com/p/54994736 高可靠性 : Hadoop 底层维护多个数据副本,所以即使 Hadoop 某个计算元素或存储出现故障,也不会导致数据的丢

    2024年02月15日
    浏览(32)
  • 谷粒商城第十二天-基本属性&销售属性管理功能的实现

    目录 一、总述 二、前端部分 三、后端部分 四、总结 前端的话,依旧是直接使用老师给的。 前端的话还是那些增删改查,业务复杂一点的话,无非就是设计到多个字段多个表的操作,当然这是后端的事了,前端这里不做深究,走一下流程,知道哪些数据,需要绑定哪些事件

    2024年02月13日
    浏览(44)
  • 每天40min,我们一起用70天稳扎稳打学完《JavaEE初阶》——12/70 第十二天【线程池 面试题】

    专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客,如有问题交流,欢迎评论区留言,一定尽快回复!(大家可以去看我的专栏,是所有文章的目录) 文章字体风格: 红色文字表示:重难点★✔ 蓝色文字表示:思路以及想法★✔ 如果大家觉得有帮助的话,感谢大家帮

    2024年02月13日
    浏览(51)
  • 分布式学习第二天 redis学习

    目录 1. 数据库类型 1.1 基本概念 1.2 关系/非关系型数据库搭配使用 2. Redis   2.1 基本知识点 2.2 redis常用命令 2.4 redis数据持久化 3 hiredis的使用 4. 复习 1. 数据库类型 1.1 基本概念 关系型数据库 - sql 操作数据必须要使用sql语句 数据存储在磁盘 存储的数据量大 举例: mysql oracle s

    2024年02月09日
    浏览(37)
  • Docker学习第二天

    docker search  xxx      从镜像库查询 docker pull xxx   从镜像库中拉取镜像 docker image ls                   查看本地镜像 docker run -it --name mysql1 -p 3306:3306 -e MYSQL_ROOT_PASSWORD=123 -d mysql 创建mysql容器 设置项详解: -it : 以交互模式运行容器,并为容器重新分配一个伪输入终端 -- name

    2024年01月19日
    浏览(37)
  • 学习c++的第二天

    目录 数据类型 基本数据类型 typedef 声明 枚举类型 类型转换 变量类型 变量定义 变量声明 左值(Lvalues)和右值(Rvalues) 变量作用域 C++ 为程序员提供了种类丰富的内置数据类型和用户自定义的数据类型。下表列出了七种基本的 C++ 数据类型: 类型 布尔型 bool 字符型

    2024年02月06日
    浏览(47)
  • Ajax学习笔记第二天

    喜欢的东西太贵了,我一咬牙,狠下心决定不喜欢了! 【 一.GET请求 】 【 1.1 URL即信息 】 我们知道php的相关运算都是在服务器端进行的,此时我们要考虑一个问题,如何将要计算的数字带给服务器?我们可以通过URL传递数据: ?xingming=ikunGGnianling=20xingbie=男 一个标准的URL网址

    2024年02月07日
    浏览(39)
  • 学习c#的第二天

    目录 C# 基本语法 using class C# 中的注释 成员变量 成员函数 类的实例化 标识符 C# C# 是一种面向对象的编程语言。在面向对象的程序设计方法中,程序由各种相互交互的对象组成。相同种类的对象通常具有相同的类型,或者说,是在相同的 class 中。 例如

    2024年02月04日
    浏览(38)
  • 学习SpringMVC第二天

     第一种方法与springmvc无关 ,  用的是tomcat的东西在web.xml里配置  第二种方法 : 用SpringMVC解决 ,设置静态资源映射匹配 , 在Spring-mvc.xml里配置 第三种方法: 还是用SpringMVC解决 , 直接加一个 第二种方法与第三种方法都是用springmvc容器完成.      这是原来的配置 , 显得非常繁琐  

    2024年02月22日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包