[Hadoop]大数据导论与Linux基础

这篇具有很好参考价值的文章主要介绍了[Hadoop]大数据导论与Linux基础。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

大数据导论

企业数据分析方向

数据分析基本步骤

大数据时代

分布式与集群

Linux操作系统概述

操作系统概念与分类

Linux起源与发展

Linux内核与发行版本

VMware Workstation虚拟机使用

VMware虚拟机概念

VMware虚拟机常规使用

Linux常用基础命令

Linux文件系统基础知识

Linux常用操作命令

Linux常用系统命令

vi/vim文本编辑器

vim编辑器介绍、3种工作模式

vim基本操作命令

大数据导论

企业数据分析方向

数据分析在企业日常经营分析中主要有三大方向:

  • 现状分析:实时分析,面向当下,分析实时产生的数据,所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。

  • 原因分析:离线分析,面向过去,分析已有的数据。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。

  • 预测分析:机器学习,基于历史数据和当下产生的实时数据预测未来发生的事情。侧重于数学算法的运用。

数据分析基本步骤

  1. 明确分析的目的和思路

  2. 数据收集

  3. 数据(预)处理

  4. 数据分析

  5. 数据展现(数据可视化)

  6. 报告撰写

一切围绕着数据,通俗描述:数据从哪里来、数据到哪里去。

大数据时代

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

大数据5V特征

  • Volume数据体量大

    • 采集数据量大

    • 存储数据量大

    • 计算数据量大

    • TB、PB起步。

  • Variety种类、来源多样化

    • 种类:结构化、半结构化、非结构化

    • 来源:日志文件、图片、音频、视频

  • Value低价值密度

    • 信息海量但是价值密度低

    • 深度复杂的挖掘分析需要机器学习参与

  • Velocity速度快

    • 数据增长速度快

    • 获取数据速度快

    • 数据处理速度快

  • Veracity数据的质量

    • 数据的准确性

    • 数据的可信赖度

应用场景

  • 抖音:推荐的都是你喜欢的视频

  • 电商站内广告推荐:给用户推荐可能喜欢的商品

  • 零售:纸尿布+啤酒

  • 物流存储

  • ......

分布式与集群

分布式:多台机器,每台机器上部署不同组件。

集群:多台机器,每台机器上部署相同组件。

应用

数据大爆炸,海量数据处理场景面临问题。

存储:单机存储有瓶颈,多台机器分布式存储。

计算:单机计算能力有限,多台机器分布式计算。

Linux操作系统概述

操作系统概念与分类

操作系统概念

  • 操作系统(OS)是管理计算机硬件与软件资源的程序。

  • 没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。

  • 操作系统也提供一个用户与系统交互的操作界面。

操作系统分类

  • 桌面操作系统:桌面指的是图形化操作页面。Mac os(Apple)、Window(Microsoft)、Linux三足鼎立。

  • 嵌入式操作系统:单片机。

  • 服务器操作系统:一般指的是安装在大型计算机上的操作系统。主要分为四大流派:Unix、Linux、Windows Server和Netware。

  • 移动设备操作系统:主要应用在智能手机、平板等智能设备上。主要有:iOS(苹果)、Android(谷歌)、Harmony(华为鸿蒙)

Linux起源与发展

  • Unix系统较早被广泛使用的计算机操作系统之一,因版权、开源等问题,延伸出不同Unix版本。

  • Linus Torvalds发布Linux系统的第一版本,遵循GPL协议(通用公共许可证),开源免费。

  • Linux是一个类似Unix的操作系统,并在功能和用户体验上进行优化,Linux并没有抄袭Unix的源码,只是外观类似。

Linux内核与发行版本

Linux内核(Kernel)

  • 操作系统的核心部分简称内核,Linux第一版独立内核由Linus Torvalds开发实现,约10000行代码。

  • 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写。

  • Linux操作系统=Linux Kernel+GNU软件及系统软件+必要的应用程序。

Linux发行版本

  • Linux发行版可分为个人桌面版和企业服务器版。

  • 个人桌面版中,Ubuntu成熟度颇高较受欢迎,而Redhat(红帽系列)及其延申版本(Centos)凭借稳定的性能在服务器中占比很大。

[Hadoop]大数据导论与Linux基础

 

VMware Workstation虚拟机使用

VMware虚拟机概念

它是一款虚拟机软件,允许用户将Linux、Windows等多个操作系统作为虚拟机在单台PC上运行。

最好将软件安装到一个没有中文、没有空格的目录下。

VMware虚拟机常规使用

快照使用:

  • VMware虚拟机软件提供了快捷功能,用于记录某一时间点的状态,用户备份恢复;

  • 拍好快照之后,可以在任何时间恢复到指定的快照时间点。

  • [Hadoop]大数据导论与Linux基础

  • 如果需要快照跳转恢复,3台虚拟机必须要同时进行恢复,避免彼此之间时间状态不同步。

  • [Hadoop]大数据导论与Linux基础

    在Linux中,SSH的主要用途有:用户加密实现远程登录、服务器之间的免密登录。

Linux常用基础命令

Linux文件系统基础知识

Linux文件系统概念

  • 操作系统中负责管理和存储文件信息的软件称为文件管理系统,简称文件系统。

  • 文件系统的结构通常叫做目录树结构,以/root开始。

  • Linux号称“万物皆文件”,意味着针对Linux的操作,大多数时间是在针对Linux文件系统操作。

[Hadoop]大数据导论与Linux基础

 

文件系统通用特征

  • 大部分文件系统都以/root开始。

  • 目录树中节点分为两个种类:目录、文件

  • 从根目录开始,路径具有唯一性。

  • 只有在目录下才可以继续创建下一级目录。

易混概念

  • 当前路径:也叫当前工作目录,当下用户所属的位置。查看用pwd。

  • 相对路径:相对当前工作目录开始的路径,会随着当前路径变化而变化。

  • 绝对路径:不管工作目录在哪,绝对路径都以/开始,唯一不重复。

[Hadoop]大数据导论与Linux基础

 

特殊符号

  • . 目录或者文件名字以.开始表示是隐藏的文件,如果路径以.开始表示当前路径

  • .. 当前目录的上一级目录

  • ~ 当前用户的home目录,比如root用户的home目录是/root

  • / 根目录

[Hadoop]大数据导论与Linux基础

 

Linux常用操作命令

  • Tab键可以实现自动补全和提示功能,要合理使用。

  • history命令可以显示历史执行记录,或者使用方向键来切换前后执行过的命令。

显示目录内容

ls命令:

  • ls -a 显示所有文件及目录(隐藏文件也会显示)

  • ls -l 或 ll 将文件信息详细列出

切换目录

cd命令:切换的路径可以是绝对路径或相对路径。若路径省略,则变换至使用者的home目录。

  • cd ~ 切换至家目录

  • cd . 表示目前所在的目录

  • cd .. 切换至当前目录的上一级目录

创建、删除

  • mkdir命令:用于创建目录

    • mkdir a 表示在当前目录下创建a文件,不能创建 /a/b

    • mkdir -p /a/b 表示在当前目录下创建/a/b

  • touch命令:创建一个空文件,无任何内容

  • rm命令:用于删除一个文件或目录

    • rm -rf aaa 将aaa文件强制删除,以及aaa的子文件也强制删除

复制、移动

  • cp命令:用于复制文件或目录

    • cp -r aaa/ bbb/ 将aaa递归复制到bbb下

  • mv命令:用来为文件或目录改名、或将文件或目录移入到其他位置。

    • mv aaa(文件) ccc(文件) 将aaa改为ccc

    • mv aaa(文件) ccc(目录) 将aaa文件移动到ccc目录下

文件内容查看

  • cat命令:适合小文件内容的查看,直接输出到控制台。

    • cat 1.txt

  • more命令:类似cat,不过会以一页一页的形式显示,翻页结束自动退出,适合大文件的查看。按space键翻下一页,按b翻上一页。

  • tail:用于查看文件的结尾部分的内容。

其他

  • | 管道命令: 命令1|命令2 可以将命令1的结果通过命令2做进一步的处理

  • echo命令:将内容输出到控制台上。

    • echo 111

  • > 输出重定向(覆盖)命令

  • >> 输出重定向(追加)命令

[Hadoop]大数据导论与Linux基础

 

打包、解包

tar 命令:常用于备份文件。

  • tar -cvf test.tar 1.txt 2.txt 将1.txt和2.txt打包到test.tar中

  • tar xvf test.tar -C /aaa/ 将test.tar中的文件解包到 aaa目录下

解压缩命令

  • tar zcvf test.tar.gz 1.txt 2.txt 将1.txt和2.txt压缩到test.tar.gz

  • tar zxvf test.tar.gz -C /aaa/ 将test.tar.gz解压到aaa目录下

Linux常用系统命令

时间、日期查看

  • date命令:用来显示或设定系统的日期与时间

  • cla命令:用于显示当前或者指定日期的公历

内存、磁盘使用率查看

  • free -h:用于显示内存状态

  • df -h:用于显示Linux系统上的文件系统磁盘使用情况统计

进程查看

  • ps命令:用于显示当前进程的状态,类似于windows的任务管理器

    • ps -ef :查看所有进程

    • kill -9 进程号:杀死进程

  • jps命令:这是JDK自带的命令,专门用于查看本机运行的java进程情况,必须在安装好JDK之后才可以使用

vi/vim文本编辑器

vim编辑器介绍、3种工作模式

vim编辑器简介

  • vim是从vi发展出来的一个文本编辑器,可以理解为vi编辑器的增强版。

  • 万物皆命令。

[Hadoop]大数据导论与Linux基础

 

vim /path/file

  • 如果打开的文件不存在,此时就是新建文件

  • 如果打开的文件已存在,进入命令模式

vim编辑器的3种工作模式

[Hadoop]大数据导论与Linux基础

 

在命令模式下:按shift+zz,可以实现快速的保存退出

vim基本操作命令

光标移动

  • 方向控制键

  • 翻页 pageup pagedown

  • 行首 (0) 行尾 ($)

  • 跳到文件的最后一行 G

  • 跳到文件的第一行 gg

复制粘贴

  • 复制

    • yy 复制光标当前所在行内容

    • nyy复制当前行往下n行

  • 粘贴

    • p 当前行的下一行粘贴

    • P 当前行的上一行粘贴

删除、撤销操作

  • 删除命令

    • dd 删除光标所在当前行的内容

    • ndd 删除当前行往下n行

  • 撤销、反撤销

    • u 撤销上一步的操作(后悔药)

    • ctrl+r 反撤销文章来源地址https://www.toymoban.com/news/detail-454384.html

到了这里,关于[Hadoop]大数据导论与Linux基础的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Linux 基础篇】Linux 目录结构速查表

    当谈论到Linux系统管理时,了解常见的目录结构是非常重要的。Linux操作系统采用一种层次结构的目录布局,每个目录都有其特定的用途和功能。在本篇博客中,我们将介绍Linux目录的速查表,帮助您更好地理解和导航Linux文件系统。 以下是Linux目录的速查表: 目录 说明 / 根目

    2024年02月12日
    浏览(29)
  • Hadoop3教程(二十八):(生产调优篇)NN、DN的多目录配置及磁盘间数据均衡

    NN多目录的意思是,本地目录可以配置成多个,且每个目录存放内容相同,这样的目的是增加可靠性。比如说下图这样: 但其实生产中不常用哈, 生产中要增加NN的可靠性的话,一般会开启NN的高可用,即在不同节点上开启多个NN,靠zookeeper来协调 。 所以本节就 了解一下即可

    2024年02月08日
    浏览(32)
  • Spark,hadoop,Linux基础命令

    目录 Linux命令 查看主机名:hostname​编辑 修改主机名:hostnamectl set-hostname xxx 创建新用户,该命令只能由 root 用户使用:useradd 设置或修改指定用户的口令:passwd 显示当前目录:pwd 显示指定目录中的文件或子目录信息。当不指定文件或目录时,显示 当前工作目录中的文件或子目

    2024年03月24日
    浏览(31)
  • Linux :: 【基础指令篇 :: 文件及目录操作:(4)】:: mkdir :: 创建目录:指定路径单个目录创建及一次性创建多级目录

    前言:本篇是 Linux 基本操作篇章的内容! 笔者使用的环境是基于腾讯云服务器:CentOS 7.6 64bit。 学习集: C++ 入门到入土!!!学习合集 Linux 从命令到网络再到内核!学习合集 目录索引: 1. 基本语法及功能 2. 基本使用示例 - - 2.1 当前目录下创建指定新目录 - - 2.2 指定目录下

    2024年02月06日
    浏览(45)
  • 掌握终端基础技巧:Linux下的文件和目录复制操作

    在Linux系统中,命令行终端是一个大而高效的工具,让使用者可以通过简单的命令完成各种任务。其中,文件和目录的复制操作是日常使用频率较高的一项操作。本文将介绍Linux下的文件和目录复制基础技巧,帮助您更好地掌握命令行终端的使用。 一、复制文件: 1.cp命令:

    2024年02月08日
    浏览(38)
  • Linux :: 【基础指令篇 :: 文件及目录操作:(6)】:: rmidr / rm:删除空目录、删除非空目录及删除文件指令

    前言:本篇是 Linux 基本操作篇章的内容! 笔者使用的环境是基于腾讯云服务器:CentOS 7.6 64bit。 学习集: C++ 入门到入土!!!学习合集 Linux 从命令到网络再到内核!学习合集 目录索引: 1. rmdir / rm 基本语法及功能 2. rmdir 基本使用测试 (看操作代码) - - 2.1 创建一个空目录

    2024年02月05日
    浏览(34)
  • 什么是大数据?Hadoop概述、Hadoop基础

    1.1 大数据的概念 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 通俗来说就是海量的数据,但是也可泛指大数据技术、大数据行业、大数据应用等。 大数据技术,主要解决 海量数据的存储 和 海量数据的分析计算 问题。 1

    2024年02月08日
    浏览(47)
  • Linux :: 【基础指令篇 :: 文件及目录操作:(7)】:: cp:指定文件或目录的拷贝及指定拷贝到指定路径(与重命名)

    前言:本篇是 Linux 基本操作篇章的内容! 笔者使用的环境是基于腾讯云服务器:CentOS 7.6 64bit。 学习集: C++ 入门到入土!!!学习合集 Linux 从命令到网络再到内核!学习合集 目录索引: 1. 基本语法及功能 2. 常用可选项说明 3. 文件基本拷贝操作 - - 3.1 指定文件拷贝到当前

    2024年02月03日
    浏览(52)
  • Linux rm命令详解,Linux删除文件目录(非常详细)从零基础入门到精通,看完这一篇就够了。

    一、常用操作 1. 删除文件 2. 删除目录 二、其他操作 作用:删除文件或目录 参数: -f 直接删除,不需要确认。 -r 递归删除(用来删除目录) -i 删除前逐一询问。 -v 显示步骤 -d 只删除空目录 1)rm 后面直接跟文件名,可以删除文件,删除前会询问是否删除(y确认,n取消)

    2024年02月06日
    浏览(49)
  • 关于大数据与Hadoop的基础认知

    定义 “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据,又称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业

    2024年04月14日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包