Spark,hadoop,Linux基础命令

这篇具有很好参考价值的文章主要介绍了Spark,hadoop,Linux基础命令。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

Linux命令

查看主机名:hostname​编辑

修改主机名:hostnamectl set-hostname xxx

创建新用户,该命令只能由 root 用户使用:useradd

设置或修改指定用户的口令:passwd

显示当前目录:pwd

显示指定目录中的文件或子目录信息。当不指定文件或目录时,显示 当前工作目录中的文件或子目录信息:ls

用于切换当前用户所在的工作目录,其中路径可以是绝对路径也可以 是相对路径:cd

用于创建目录。创建目录前需保证当前用户对当前路径有修改的权 限:mkdir

创建文件:touch

用于删除文件或目录:rm

复制文件或目录:cp

移动文件或对其改名:mv

查看文件内容:cat

​编辑为文件和目录创建档案:tar

将文件或目录的拥有者改为指定的用户或组,用户可以是用户名或者 用户 ID,组可以是组名或者组 ID,文件是以空格分开的要改变权限的文件 列表支持通配符:chown

用于在终端设备上输出字符串或变量提取后的值。一般使用在变量前 加上$符号的方式提取出变量的值:echo例如:$PATH然后再用 echo 命令予以 出。

Hadoop生态圈

spark生态圈及特点

MapReduce和spark的对比

结束结构化数据和非结构化数据

热备,冷备,温备

Linux命令

查看主机名:hostnameSpark,hadoop,Linux基础命令,linux,运维,服务器
修改主机名:hostnamectl set-hostname xxx

Spark,hadoop,Linux基础命令,linux,运维,服务器

创建新用户,该命令只能由 root 用户使用:useradd

Spark,hadoop,Linux基础命令,linux,运维,服务器

设置或修改指定用户的口令:passwd

Spark,hadoop,Linux基础命令,linux,运维,服务器

显示当前目录:pwd

Spark,hadoop,Linux基础命令,linux,运维,服务器

显示指定目录中的文件或子目录信息。当不指定文件或目录时,显示 当前工作目录中的文件或子目录信息:ls

 -a :全部的档案,连同隐藏档( 开头为 . 的档案) 一起列出来。

 -l :长格式显示,包含文件和目录的详细信息。

 -R :连同子目录内容一起列出来。

Spark,hadoop,Linux基础命令,linux,运维,服务器

用于切换当前用户所在的工作目录,其中路径可以是绝对路径也可以 是相对路径:cd

Spark,hadoop,Linux基础命令,linux,运维,服务器

用于创建目录。创建目录前需保证当前用户对当前路径有修改的权 限:mkdir

参数 -p 用于创建多级文件夹:mkdir -p

Spark,hadoop,Linux基础命令,linux,运维,服务器

创建文件:touch

Spark,hadoop,Linux基础命令,linux,运维,服务器

用于删除文件或目录:rm

常用选项-r -f,-r 表示删除目录,也可以用于 删除文件。

-f 表示强制删除,不需要确认。删除文件前需保证当前用户对当 前路径有修改的权限。

Spark,hadoop,Linux基础命令,linux,运维,服务器

复制文件或目录:cp

格式: cp  [选项]<文件> <目标文件>  

[root@localhost ~]# cp /etc/profile  ./

[root@localhost ~]# ls  anaconda-ks.cfg  profile  test 

移动文件或对其改名:mv

常用选项-i -f -b,-i 表示若存在同名文件,则向用户 询问是否覆盖;

-f 直接覆盖已有文件,不进行任何提示;

-b 当文件存在时,覆盖 前为其创建一个备份。

[root@localhost ~]# ls  anaconda-ks.cfg  profile  test

[root@localhost ~]# mv profile test/

[root@localhost ~]# ls test/ Profile 

查看文件内容:cat

常用选项:-n 显示行号(空行也编号)

Spark,hadoop,Linux基础命令,linux,运维,服务器为文件和目录创建档案:tar

 tar 命令,可以把一大堆的文件和目录 全部打包成一个文件,这对于备份文件或将几个文件组合成为一个文件以便 于网络传输是非常有用的。该命令还可以反过来,将档案文件中的文件和目 录释放出来。

 常用选项:  -c 建立新的备份文件。

-C <目录> 切换工作目录,先进入指定目录再执行压缩/解压缩操作,可用于 仅压缩特定目录里的内容或解压缩到特定目录。

 -x 从归档文件中提取文件。

 -z 通过 gzip 指令压缩/解压缩文件,文件名为*.tar.gz。

 -f<备份文件> 指定备份文件。  -v 显示命令执行过程。

[root@localhost ~]# ls  anaconda-ks.cfg  test

[root@localhost ~]# tar -cvf test.tar test test/ test/profile

[root@localhost ~]# ls  anaconda-ks.cfg  test  test.tar

[root@localhost ~]# tar -zcvf  test.tar.gz test test/ test/profile

[root@localhost ~]# ls  anaconda-ks.cfg  test  test.tar  test.tar.gz

[root@localhost ~]# tar -zxvf test.tar.gz -C /opt/ test/ test/profile

[root@localhost ~]# ls /opt/ 
Test 

将文件或目录的拥有者改为指定的用户或组,用户可以是用户名或者 用户 ID,组可以是组名或者组 ID,文件是以空格分开的要改变权限的文件 列表支持通配符:chown

选项“-R”表示对目前目录下的所有文件与子目录进行相同 的拥有者变更。

 [root@localhost ~]# chown teacher:teacher test.tar.gz

 [root@localhost ~]# ll

总用量 20 -rw-------. 1 root    root     1241 12月 20 2021 anaconda-ks.cfg drwxr-xr-x. 2 root    root       21 11月  9 23:19 test -rw-r--r--. 1 root    root    10240 11月 10 00:01 test.tar -rw-r--r--. 1 teacher teacher  1008 11月 10 00:02 test.tar.gz 

用于在终端设备上输出字符串或变量提取后的值。一般使用在变量前 加上$符号的方式提取出变量的值:echo例如:$PATH然后再用 echo 命令予以 出。

示例:  #输出一段字符串 LinuxCool.com

[root@master ~]# echo "LinuxCool.com" LinuxCool.com  #输出变量 PATH 值

[root@master ~]# echo $PATH /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin 

Hadoop生态圈

  Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。

  Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示:

Spark,hadoop,Linux基础命令,linux,运维,服务器

  根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。接下reore来对Hadoop生态圈中出现的相关组件做一个简要介绍

spark生态圈及特点

spark生态圈的重要组件有:Spark Core(Spark的核心,提供底层框架及核心支持);BlinkDB;Spark SQL;Spark Steaming;MLBase;GraphX;SparkR

特点:快速;易用;通用;随处运行;代码简洁

MapReduce和spark的对比

1.通用性
1.1Spark
一栈式,主要说的是,Spark不仅仅可以进行离线计算(SparkCore),同时还可以进行流式处理(SparkStreaming)、交互式计算(SparkShell,SparkSQL,StructStreaming,
图计算(SparkGraphx),机器学习(SparkMLLib),也就是说我们可以在一个项目中,同时可以使用上述所有的框架,这是Spark相比较于其它框架最大的优势。可以使用多中语言进行编程

1.2MR
mapreduce主要是擅长离线的计算,不擅长实时计算

2.内存和磁盘的使用情况
2.1Spark
Spark是基于RDD,主要使用内存进行储存计算的源数据及过程的数据,避免了写磁盘的IO操作,速度自然比较快

2.2MR
mapreduce基于磁盘的计算,计算的过程中需要大量的溢写磁盘的操作,IO瓶颈比较明显,速度自然不好

3.API
3.1Spark
Spark编程过程中系统提供了大量的算子,transformation和action算子,功能之强大是MR无法比拟的,编程自由度比较高

3.2MR
MR的编程API只是提供了 map和reduce的操作,编程局限性比较大,什么操作都需要往规定好的模式上去套,死板

4.系统自由度
4.1Spark
Spark给用户提供了诸多的参数进行设置,适应不同场景的应用,比如sort,系统并没有强制进行sort,如果需要可以进行相应参数的设置,去掉自动排序的功能之后提高效率

4.2 MR
maoreduce的shuffle的过程中相当的复杂,虽然shuffle的过程是奇迹发生的地方,但是这里边做的事太多了,很多没有法子去掉,也就是说有可能对于场景无用的操作也做了,比如排序,本身其实我们有可能不需要sort,但是基于MR的特性,它必须依靠sort,这样白白浪费了性能

5.系统容错性
5.1Spark
Spark中有个血缘关系,在计算过程中如果出现问题造成数据丢失,系统不用重新计算,只需要根据血缘关系找到最近的中间过程数据进行计算,而且基于内存的中间数据存储增加了再次使用的读取的速度

5.2MR
MR的过程中的中间文件溢写磁盘,如计算过程中出现数据的丢失,只能重新来过.严重影响时效性

结束结构化数据和非结构化数据

结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:

id      name            age     gender
1       Liu Yi          20      male
2       Chen Er         35      female
3       Zhang San       28      male

所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。

但是,它的扩展性不好。比如,如果字段不固定,利用关系型数据库也是比较困难的,有人会说,需要的时候加个字段就可以了,这样的方法也不是不可以,但在实际运用中每次都进行反复的表结构变更是非常痛苦的,这也容易导致后台接口从数据库取数据出错。你也可以预先设定大量的预备字段,但这样的话,时间一长很容易弄不清除字段和数据的对应状态,即哪个字段保存有哪些数据。

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。

非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

热备,冷备,温备

1> 冷备份 : 备份系统未安装或未配置成与当前使用的系统相同或相似的运行环境,应用系统数据没有及时装入备份系统。一旦发生灾难,需安装配置所需的运行环境,用数据备份介质(磁带或光盘) 恢复应用数据,手工逐笔或自动批量追补孤立数据,将终端用户通过通讯线路切换到备份系统,恢复业务运行
     优点 : 设备投资较少,节省通信费用,通信环境要求不高
     缺点 : 恢复时间较长,一般要数天至1周,数据完整性与一致性较差

2> 温备份 : 将备份系统已安装配置成与当前使用的系统相同或相似的系统和网络运行环境,安装应用系统业务定期备份数据。一旦发生灾难,直接使用定期备份数据,手工逐笔或自动批量追补孤立数据或将终端用户通过通讯线路切换到备份系统,恢复业务运行
     优点 : 设备投资较少,通信环境要求不高
     缺点 : 恢复时间长,一般要十几个小时至数天,数据完整性与一致性较差

3> 热备份 : 备份处于联机状态,当前应用系统通过高速通信线路将数据实时传送到备份系统,保持备份系统与当前应用系统数据的同步;也可定时在备份系统上恢复应用系统的数据。一旦发生灾难,不用追补或只需追补很少的孤立数据,备份系统可快速接替生产系统运行,恢复营业
     优点 : 恢复时间短,一般几十分钟到数小时,数据完整性与一致性最好,数据丢失可能性最小
     缺点 : 设备投资大,通信费用高,通信环境要求高,平时运行管理较复杂

在计算机服务器备份和恢复中
 冷备份服务器(cold server) 是在主服务器丢失的情况下才使用的备份服务器。冷备份服务器基本上只在软件安装和配置的情况下打开,然后关闭直到需要时再打开
 温备份服务器(warm server) 一般都是周期性开机,根据主服务器内容进行更新,然后关机。经常用温备份服务器来进行复制和镜像操作
 热备份服务器(hot server) 时刻处于开机状态,同主机保持同步。当主机失灵时,可以随时启用热备份服务器来代替文章来源地址https://www.toymoban.com/news/detail-842842.html

到了这里,关于Spark,hadoop,Linux基础命令的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Linux服务器常见运维性能测试(1)综合跑分unixbench、superbench

    最近需要测试一批服务器的相关硬件性能,以及在常规环境下的硬件运行稳定情况,需要持续拷机测试稳定性。所以找了一些测试用例。本次测试包括在服务器的高低温下性能记录及压力测试,高低电压下性能记录及压力测试,常规环境下CPU满载稳定运行的功率记录。 这个系

    2024年02月04日
    浏览(54)
  • Linux本地部署1Panel服务器运维管理面板并实现公网访问

    1Panel 是一个现代化、开源的 Linux 服务器运维管理面板。高效管理,通过 Web 端轻松管理 Linux 服务器,包括主机监控、文件管理、数据库管理、容器管理等 下面我们介绍在Linux 本地安装1Panel 并结合cpolar 内网穿透工具实现远程访问1Panel 管理界面 执行如下命令一键安装 1Panel: 安

    2024年02月04日
    浏览(58)
  • 云计算Linux运维——基础服务应用——HTTPD服务(8)更新中......

    应用层协议 作用 在客户端、web服务器传递数据 Hyper Text Transfer Protocol 超文本传输协议 客户端访问web服务时,传递代码,由浏览器解析代码进行展示 1、类型 静态网站 网页上所有资源都是固定的 html语言,js, jquery 动态网站 一段程序代码,根据传递的参数不同展示不同的结果

    2024年04月10日
    浏览(31)
  • [1Panel]开源,现代化,新一代的 Linux 服务器运维管理面板

    本期测评试用一下1Panel这款面板。1Panel是国内飞致云旗下开源产品。整个界面简洁清爽,后端使用GO开发,前端使用VUE的Element-Plus作为UI框架,整个面板的管理都是基于docker的,想法很先进。官方还提供了视频的使用教程,本期为大家按照本专栏的基本内容进行多方面的测评。

    2024年02月07日
    浏览(72)
  • 云计算Linux运维——基础服务应用——SSH远程连接(1)

    目录 点关注不迷路 SSH远程连接 一、SSH介绍 1、管理Linux服务器的方式 2、确保Linux服务正常运行 3、客户端软件 二、ssh远程连接操作 1、ssh远程连接 2、执行远程命令 3、远程拷贝文件 三、SSH怎么实现加密? 1、数据加密 2、数据加密算法 3、对称加密算法 4、非对称加密算法  

    2024年02月02日
    浏览(35)
  • Linux服务器常见运维性能测试(3)CPU测试super_pi、sysbench

    最近需要测试一批服务器的相关硬件性能,以及在常规环境下的硬件运行稳定情况,需要持续拷机测试稳定性。所以找了一些测试用例。本次测试包括在服务器的高低温下性能记录及压力测试,高低电压下性能记录及压力测试,常规环境下CPU满载稳定运行的功率记录。 这个系

    2024年02月02日
    浏览(39)
  • 华为云云耀云服务器L实例评测 | Linux系统宝塔运维部署H5游戏

    本章节内容,我们主要介绍华为云耀服务器L实例,从云服务的优势讲起,然后讲解华为云耀服务器L实例资源面板如何操作,如何使用宝塔运维服务,如何使用运维工具可视化安装nginx,最后部署一个自研的H5的小游戏(6岁的小朋友玩的很开心😁)。 前端的同学如果想把自己

    2024年02月07日
    浏览(46)
  • Linux 命令|服务器相关

    【精选】在公共Linux服务器上创建自己的python虚拟环境_服务器创建自己的环境-CSDN博客 1. nvidia-smi命令详解-CSDN博客 2. 查看进程 top 和 ps 啥区别? ps 可以查看所有状态的进程? top 实时查看运行态的进程? 在本地 Mac 计算机的终端中,使用以下命令将文件上传到服务器 其中,

    2024年02月07日
    浏览(39)
  • linux服务器禁止ping命令,linux服务器禁ping如何解除

      我是艾西,在我们搭建网站或做某些程序时,不少人会问禁ping是什么意思,怎么操作的对于业务有哪些好处等,今天艾西一次给你们说清楚。 禁PING的意思是:不允许电脑、设备或服务器使用PING功能。一般情况下电脑、防火墙、服务器都是允许PING功能的,不需要特别设置

    2023年04月20日
    浏览(30)
  • Linux查看服务器配置命令

    往往在操作中需要查看服务器配置,简单罗列了一些相关命令,欢迎补充。 1、查看 cpu信息 2、查看内存信息 3、 查看CPU 4、查看操作系统信息 5、查看centos版本信息 6、查看磁盘使用情况 7、查看其它磁盘外设信息 8、查看所有可用块设备的信息 9、查看所有硬件信息 10、查看

    2024年02月07日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包