目录
大数据导论
企业数据分析方向
数据分析基本步骤
大数据时代
分布式与集群
Linux操作系统概述
操作系统概念与分类
Linux起源与发展
Linux内核与发行版本
VMware Workstation虚拟机使用
VMware虚拟机概念
VMware虚拟机常规使用
Linux常用基础命令
Linux文件系统基础知识
Linux常用操作命令
Linux常用系统命令
vi/vim文本编辑器
vim编辑器介绍、3种工作模式
vim基本操作命令
大数据导论
企业数据分析方向
数据分析在企业日常经营分析中主要有三大方向:
-
现状分析:实时分析,面向当下,分析实时产生的数据,所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。
-
原因分析:离线分析,面向过去,分析已有的数据。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。
-
预测分析:机器学习,基于历史数据和当下产生的实时数据预测未来发生的事情。侧重于数学算法的运用。
数据分析基本步骤
-
明确分析的目的和思路
-
数据收集
-
数据(预)处理
-
数据分析
-
数据展现(数据可视化)
-
报告撰写
一切围绕着数据,通俗描述:数据从哪里来、数据到哪里去。
大数据时代
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据5V特征:
-
Volume数据体量大
-
采集数据量大
-
存储数据量大
-
计算数据量大
-
TB、PB起步。
-
-
Variety种类、来源多样化
-
种类:结构化、半结构化、非结构化
-
来源:日志文件、图片、音频、视频
-
-
Value低价值密度
-
信息海量但是价值密度低
-
深度复杂的挖掘分析需要机器学习参与
-
-
Velocity速度快
-
数据增长速度快
-
获取数据速度快
-
数据处理速度快
-
-
Veracity数据的质量
-
数据的准确性
-
数据的可信赖度
-
应用场景
-
抖音:推荐的都是你喜欢的视频
-
电商站内广告推荐:给用户推荐可能喜欢的商品
-
零售:纸尿布+啤酒
-
物流存储
-
......
分布式与集群
分布式:多台机器,每台机器上部署不同组件。
集群:多台机器,每台机器上部署相同组件。
应用
数据大爆炸,海量数据处理场景面临问题。
存储:单机存储有瓶颈,多台机器分布式存储。
计算:单机计算能力有限,多台机器分布式计算。
Linux操作系统概述
操作系统概念与分类
操作系统概念
-
操作系统(OS)是管理计算机硬件与软件资源的程序。
-
没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。
-
操作系统也提供一个用户与系统交互的操作界面。
操作系统分类
-
桌面操作系统:桌面指的是图形化操作页面。Mac os(Apple)、Window(Microsoft)、Linux三足鼎立。
-
嵌入式操作系统:单片机。
-
服务器操作系统:一般指的是安装在大型计算机上的操作系统。主要分为四大流派:Unix、Linux、Windows Server和Netware。
-
移动设备操作系统:主要应用在智能手机、平板等智能设备上。主要有:iOS(苹果)、Android(谷歌)、Harmony(华为鸿蒙)
Linux起源与发展
-
Unix系统较早被广泛使用的计算机操作系统之一,因版权、开源等问题,延伸出不同Unix版本。
-
Linus Torvalds发布Linux系统的第一版本,遵循GPL协议(通用公共许可证),开源免费。
-
Linux是一个类似Unix的操作系统,并在功能和用户体验上进行优化,Linux并没有抄袭Unix的源码,只是外观类似。
Linux内核与发行版本
Linux内核(Kernel)
-
操作系统的核心部分简称内核,Linux第一版独立内核由Linus Torvalds开发实现,约10000行代码。
-
后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写。
-
Linux操作系统=Linux Kernel+GNU软件及系统软件+必要的应用程序。
Linux发行版本
-
Linux发行版可分为个人桌面版和企业服务器版。
-
个人桌面版中,Ubuntu成熟度颇高较受欢迎,而Redhat(红帽系列)及其延申版本(Centos)凭借稳定的性能在服务器中占比很大。
VMware Workstation虚拟机使用
VMware虚拟机概念
它是一款虚拟机软件,允许用户将Linux、Windows等多个操作系统作为虚拟机在单台PC上运行。
最好将软件安装到一个没有中文、没有空格的目录下。
VMware虚拟机常规使用
快照使用:
-
VMware虚拟机软件提供了快捷功能,用于记录某一时间点的状态,用户备份恢复;
-
拍好快照之后,可以在任何时间恢复到指定的快照时间点。
-
如果需要快照跳转恢复,3台虚拟机必须要同时进行恢复,避免彼此之间时间状态不同步。
-
在Linux中,SSH的主要用途有:用户加密实现远程登录、服务器之间的免密登录。
Linux常用基础命令
Linux文件系统基础知识
Linux文件系统概念
-
操作系统中负责管理和存储文件信息的软件称为文件管理系统,简称文件系统。
-
文件系统的结构通常叫做目录树结构,以/root开始。
-
Linux号称“万物皆文件”,意味着针对Linux的操作,大多数时间是在针对Linux文件系统操作。
文件系统通用特征
-
大部分文件系统都以/root开始。
-
目录树中节点分为两个种类:目录、文件
-
从根目录开始,路径具有唯一性。
-
只有在目录下才可以继续创建下一级目录。
易混概念
-
当前路径:也叫当前工作目录,当下用户所属的位置。查看用pwd。
-
相对路径:相对当前工作目录开始的路径,会随着当前路径变化而变化。
-
绝对路径:不管工作目录在哪,绝对路径都以/开始,唯一不重复。
特殊符号
-
. 目录或者文件名字以.开始表示是隐藏的文件,如果路径以.开始表示当前路径
-
.. 当前目录的上一级目录
-
~ 当前用户的home目录,比如root用户的home目录是/root
-
/ 根目录
Linux常用操作命令
-
Tab键可以实现自动补全和提示功能,要合理使用。
-
history命令可以显示历史执行记录,或者使用方向键来切换前后执行过的命令。
显示目录内容
ls命令:
-
ls -a 显示所有文件及目录(隐藏文件也会显示)
-
ls -l 或 ll 将文件信息详细列出
切换目录
cd命令:切换的路径可以是绝对路径或相对路径。若路径省略,则变换至使用者的home目录。
-
cd ~ 切换至家目录
-
cd . 表示目前所在的目录
-
cd .. 切换至当前目录的上一级目录
创建、删除
-
mkdir命令:用于创建目录
-
mkdir a 表示在当前目录下创建a文件,不能创建 /a/b
-
mkdir -p /a/b 表示在当前目录下创建/a/b
-
-
touch命令:创建一个空文件,无任何内容
-
rm命令:用于删除一个文件或目录
-
rm -rf aaa 将aaa文件强制删除,以及aaa的子文件也强制删除
-
复制、移动
-
cp命令:用于复制文件或目录
-
cp -r aaa/ bbb/ 将aaa递归复制到bbb下
-
-
mv命令:用来为文件或目录改名、或将文件或目录移入到其他位置。
-
mv aaa(文件) ccc(文件) 将aaa改为ccc
-
mv aaa(文件) ccc(目录) 将aaa文件移动到ccc目录下
-
文件内容查看
-
cat命令:适合小文件内容的查看,直接输出到控制台。
-
cat 1.txt
-
-
more命令:类似cat,不过会以一页一页的形式显示,翻页结束自动退出,适合大文件的查看。按space键翻下一页,按b翻上一页。
-
tail:用于查看文件的结尾部分的内容。
其他
-
| 管道命令: 命令1|命令2 可以将命令1的结果通过命令2做进一步的处理
-
echo命令:将内容输出到控制台上。
-
echo 111
-
-
> 输出重定向(覆盖)命令
-
>> 输出重定向(追加)命令
打包、解包
tar 命令:常用于备份文件。
-
tar -cvf test.tar 1.txt 2.txt 将1.txt和2.txt打包到test.tar中
-
tar xvf test.tar -C /aaa/ 将test.tar中的文件解包到 aaa目录下
解压缩命令
-
tar zcvf test.tar.gz 1.txt 2.txt 将1.txt和2.txt压缩到test.tar.gz
-
tar zxvf test.tar.gz -C /aaa/ 将test.tar.gz解压到aaa目录下
Linux常用系统命令
时间、日期查看
-
date命令:用来显示或设定系统的日期与时间
-
cla命令:用于显示当前或者指定日期的公历
内存、磁盘使用率查看
-
free -h:用于显示内存状态
-
df -h:用于显示Linux系统上的文件系统磁盘使用情况统计
进程查看
-
ps命令:用于显示当前进程的状态,类似于windows的任务管理器
-
ps -ef :查看所有进程
-
kill -9 进程号:杀死进程
-
-
jps命令:这是JDK自带的命令,专门用于查看本机运行的java进程情况,必须在安装好JDK之后才可以使用
vi/vim文本编辑器
vim编辑器介绍、3种工作模式
vim编辑器简介
-
vim是从vi发展出来的一个文本编辑器,可以理解为vi编辑器的增强版。
-
万物皆命令。
vim /path/file
-
如果打开的文件不存在,此时就是新建文件
-
如果打开的文件已存在,进入命令模式
vim编辑器的3种工作模式
在命令模式下:按shift+zz,可以实现快速的保存退出
vim基本操作命令
光标移动
-
方向控制键
-
翻页 pageup pagedown
-
行首 (0) 行尾 ($)
-
跳到文件的最后一行 G
-
跳到文件的第一行 gg
复制粘贴
-
复制
-
yy 复制光标当前所在行内容
-
nyy复制当前行往下n行
-
-
粘贴
-
p 当前行的下一行粘贴
-
P 当前行的上一行粘贴
-
删除、撤销操作
-
删除命令
-
dd 删除光标所在当前行的内容
-
ndd 删除当前行往下n行
-
-
撤销、反撤销
-
u 撤销上一步的操作(后悔药)文章来源:https://www.toymoban.com/news/detail-454384.html
-
ctrl+r 反撤销文章来源地址https://www.toymoban.com/news/detail-454384.html
-
到了这里,关于[Hadoop]大数据导论与Linux基础的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!