大数据技术⑥|大数据第11章·Hadoop 基础|大数据第12章·IBM InfoSphere BigInsights|大数据技术|20:20~21:20

这篇具有很好参考价值的文章主要介绍了大数据技术⑥|大数据第11章·Hadoop 基础|大数据第12章·IBM InfoSphere BigInsights|大数据技术|20:20~21:20。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 

目录

第11章 Hadoop 基础

11.1 大数据与Hadoop

11.2 Hadoop框架的主要组件

11.3 用Hadoop分析大数据

表(Table)

元组(Tuple)

11.4 Hadoop分布式文件系统——HDFS

cat

chgrp

chmod

chown

count

cp

du

dus

expunge

get

getmerge

Is

Isr

mkdir

mv

put

rm

rmr

setrep

stat

tail

test

text

touchz


大数据第12章 IBM InfoSphere BigInsights    

 一、实验内容

二、实验目的

三、实验设备

四、实验步骤

1.下载与安装IBM

步骤一:进入官网

步骤2:注册IBM账号

2.环境配置

3.入门练习

五、实验结果

六、实验小结


第11章 Hadoop 基础

在众多的大数据技术中,Hadoop是一个著名的大数据技术,其主要优点是具有快速处理大数据集的能力。

与传统技术不同,Hadoop不会在内存中复制整个远程数据来执行计算,而是在数据存储处执行任务。

Hadoop减轻了网络与服务期间的通信负荷。

Hadoop还有一个优点,能够在保证分布式环境中的容错性的同时运行程序。为了确保该优点的实施,它通过复制服务器上的数据来防止数据丢失。


IBM InfoSphere BigInsights的基本版包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和其他一些开源工具。


本篇将以 IBM InfoSphere BigInsights 为主线,全面介绍 Hadoop 的主要组件。这些组件包括:① 分布式文件系统 HDFS; ② Hadoop 的编程模型 MapReduce: ③ 大数据查询语言JAQL;④大数据仓库 Hive 与 HBase;⑤ MapReduce 编码的更高级别的编程环境 Pig;⑥ Hadoop 与结构化数据存储间传送批量数据的工具 Sgoop;⑦ 旨在收集、汇总与将来自不同源的日志数据移动到中央位置的一种分布式系统 Flume; ⑧ 管理 Hadoop 工作流的工具 Oozie;⑨ 用于管理集群同步的工具 ZooKeeper; @ Hadoop 的机器学习组件 Mahout。


11.1 大数据与Hadoop

Hadoop的核心由HDFS和MapReduce组成。

Hadoop的基本框架:通用模块、HDFS(分布式存储)、YARN框架、MapReduce(分布式计算)。

11.2 Hadoop框架的主要组件

Hadoop框架的主要组件包括:HDFS、MapReduce、Jaql、Hive与Hue、Pig、Sqoop、Flume、Hadoop Streaming、Oozie、HBase、FlumNG、Whirr、Mahout、Fuse、Zookeeper。

11.3 用Hadoop分析大数据

关系数据库模型是主要的数据模型,主要有:表(Table)和元组(Tuple)。

表(Table)

在关系数据模型中,关系以表的格式存储。这个格式存储了实体间的关系。一个表具有行和列,其中行表示记录,列表示属性。

元组(Tuple)

表单的一行,包含关系的单个记录,称为元组。元组与属性的关系

11.4 Hadoop分布式文件系统——HDFS

cat

        用法:hadoop fs –cat URI[URI…]

        将原路径复制到标准输出

例如:

hadoop fs -cat hdfs:/mydir/test_file1 hdfs:/mydir/test_file2

hadoop fs –cat file:///file3/user/hadoop/file4

chgrp

        用法:hadoop fs –chgrp [-R] GROUP URI[URI…]

        更改文件的组关联

        使用-R,递归的=地通过目录结构进行更改

chmod

        用法:hadoop fs –chmod [-R]<MODE[,MODE]…|OCTALMODE>

        更改文件权限

        使用-R,递归地通过目录结构进行更改

chown

        用法:hadoop fs –chown [-R] [OWNER][:[GROUP]]URI[URI]

        使用-R,递归地通过目录结构进行更改 

        copyFromLocal

        用法:hadoop fs –copyFromLocal<localsrc>URI:

        copyToLocal

        用法:hadoop fs –copyToLocal [-ignoreCre] [-crc] URI<localdst>

count

        用法:hadoop fs –count[-q]<path>

        统计与指定文件模式匹配的路径下的目录、文件和字节数。

        输出栏为: DIR_COUNT,FILE_COUNT,COUNT_SIZE FILE_NAME

        用-q输出的栏为:

QUOAT,REMAINING_QUATA,SPACE_QUOTA,

REMAINING_SPACE_QUATA,DIR_COUNT,FILE_COUNT,

CONTENT_SIZE,FILE_NAME

例如:

hadoop fs-count hdfs:/mydir/test_file1 hdfs:/mydir/test_file2

hadoop fs –count –q hdfs:/mydir/test_file1

cp

        用法:hadoop fs –cp URI[URI…]<dest>

        从源文件拷贝到目标文件

        该命令允许多个源文件,但目标必须是一个目录

例如:

hadoop fs –cp hdfs:/mydir/test_file file:///home/hdpadmin/foo

hadoop fs –cp file:///home/hdpadmin/foo file:///home/hdpadmin/boo

hdfs:/mydir

du

用法:hadoop fs –du URI[URI…]

显示包含在目录中的文件的合计长度或只有一个文件的文件长度

例如:

Hadoop fs –du file:///home/hdpadmin/test_file hdfs:/mydir

dus

        用法:hadoop fs –dus <args>

        显示文件的总计长度

expunge

        用法:hadoop fs -expunge        

        清空垃圾

get

        用法:hadoop fs –get [-ignoreCre][-crc]<src><localdst>        

        将文件拷贝到本地文件系统

—CRC校验失败的文件可以用-ignoreCre选项复制。

—可以用-crc选项复制文件和CRC.

例如:

Hadoop fs –get hdfs:/mydir/file file:///home/hdpadmin/loca file

getmerge

        用法:hadoop fs -getmerge<src><localdst>[addn1]

        将源文件和目标文件作为输出,源文件中的连接文件连接到目标本地文件。

        可以设置一个附加选项来在每个文件的末尾添加换行符

Is

        用法:hadoop fs -Is<args>        

        对于文件,使用下面格式返回文件中的统计信息:

        —permissions number_of_replicas userid groupid filesize modification_date                                                                      modification_time filemane

        对于目录,它将返回其直接子目录列表,如在UNIX中。目录列表如下:

—permissions userid grougid modification_date modification_time dirname

例:

hadoop fs –Is hdfs:/mydir/test_file

Isr

        用法:hadoop fs –Isr<args>

        Is的递归版本。与Unix的Is –R相似。

例如:

hadoop fs –Isr hdfs:/mydir

mkdir

        用法:hadoop fs –mkdir<paths>

        将uri作为路径参数并创建目录。这种行为非常像Unix mkdir –p沿路径创建父目录

例如:

hadoop fs –mkdir hdfs:/mydir/foodir hdfs:/mydir/boodir

mv

        用法:hadoop fs –mv URI[URI…]<dest>

        将文件从源移动到目标

        这个命令允许多个源。在这种情况下,目标必须是一个目录。

        跨文件系统移动文件是不允许的。

例如:

hadoop fs –mv file:///home/hdpadmin/test_file file:///home/hdpadmin/test_file1

hadoop fs –mv hdfs:/mydir/file1 hdfs:/mydir/file2 hdfs:/mydir3

put

        用法:hadoop fs –put<localsrc>…<dst>

        将单源或多源从本地文件系统拷贝到目标文件系统

        从stdin中读取输入并写入目标文件系统

        注意,它可以是同一个文件系统。

例如:

hadoop fs –put file:///home/hdpadmin/test_file hdfs:/mydir

hadoop fs –put localfile1 localfile2 hdfs:/mydir

hadoop fs –put- hdfs://mydir/input_file1(从stdin中读取输入)

rm

        用法:hadoop fs –rm[-skip Trash]URI[URI…]

        删除指定参数的文件

        仅删除非空目录及文件

例如:

hadoop fs –rm hdfs:/home/hdpadmin/test_file file://home/hdpadmin/test_file

rmr

        用法:hadoop fs –rmr[-skipTrash]URI[URI…]

        删除的迭代版本

例如:

hadoop fs –rmr file:///home/hdpadmin/mydir

hadoop fs –rmr –skipTrash hdfs:/mydir

setrep

        用法:hadoop fs –setrep[-w][ -R]<path>

        改变文件的复制因子

例如:

-hadoop fs –setrep –w 5 –R hdfs:/user/hadoop/dir1

stat

        用法:hadoop fs –stat URI[URI…]

        返回路径上的统计信息

例如:

-hadoop fs –stat hdfs:/mydir/test_file

tail

        用法:hadoop fs –tail[-f] URI

        将文件的最后1K字节显示到stdout中。-f选项可用于Unix中。

例如:

-hadoop fs –tail hdfs:/mvdir/test file

test

        用法:hadoop fs –test-[ezd] URI

        -e 查看文件是否存在,如果存在则返回0。

        -z 查看文件的长度是否为0,如果为真,则返回0。

        -d 查看路径是否是目录,如果是真,则返回0。

例如:

hadoop fs –test –e hdfs:/mydir/test_file

text

        用法:hadoop fs –text<src>

        将原文和输出文件转换为文本格式

touchz

        用法:hadoop fs –touchz URI[URI]

        创建长度为0的文件

例如:

hadoop fs –touchz hdfs:/mydir/test_file


大数据第12章 IBM InfoSphere BigInsights    

 一、实验内容

        请独立完成12.3的练习,提交练习结果。(提交练习过程中的实施步骤和相关界面截图)

二、实验目的

        IBM InfoSphereBigInsights是一个用于分析与可视化的大数据平台,是在Apache Hadoop开源的分布式计算平台上开发的。 

        InfoSphereBigInsights可以帮助企业或机构中的应用程序开发人员、数据科学家和管理人员快速构建和部署自定义分析系统,从数据中获取有用的价值。这些数据通常集成到现有的数据库、数据仓库和商业智能基础设施中。通过使用 InfoSphereBigInsights,用户可以从这些数据中提取新的内涵,从而增强对业务的了解。

三、实验设备

        PC

四、实验步骤

1.下载与安装IBM

步骤一:进入官网

https://www-01.ibm.com/marketing/iwm/iwm/web/preLogin.do?source=swg-i bmibqse&S_CMP=web_dwchina_rt_swd&S_PKG=ov13483〈=zh_CN

大数据技术⑥|大数据第11章·Hadoop 基础|大数据第12章·IBM InfoSphere BigInsights|大数据技术|20:20~21:20

步骤2:注册IBM账号

注册后并登陆,同意协议,进入下一界面。

大数据技术⑥|大数据第11章·Hadoop 基础|大数据第12章·IBM InfoSphere BigInsights|大数据技术|20:20~21:20
下载 3.0.0.2 版本镜像,下载完成后在进行解压缩。
打开 Vmware,点击打开虚拟机。进入到解压目录,打开虚拟机配置文件,配置结束后可开启此虚拟机。

大数据技术⑥|大数据第11章·Hadoop 基础|大数据第12章·IBM InfoSphere BigInsights|大数据技术|20:20~21:20

2.环境配置

VMware映像的设置参数如下图所示。

大数据技术⑥|大数据第11章·Hadoop 基础|大数据第12章·IBM InfoSphere BigInsights|大数据技术|20:20~21:20

3.入门练习

五、实验结果

大数据技术⑥|大数据第11章·Hadoop 基础|大数据第12章·IBM InfoSphere BigInsights|大数据技术|20:20~21:20

六、实验小结

1. 通过练习,可以更好的管理大数据环境。
2. IBM所提供的加速,对开发和实现大数据分析应用程序提供了良好的解决方案。 文章来源地址https://www.toymoban.com/news/detail-476208.html


到了这里,关于大数据技术⑥|大数据第11章·Hadoop 基础|大数据第12章·IBM InfoSphere BigInsights|大数据技术|20:20~21:20的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop大数据处理技术-初步了解Hadoop

    ​ 云计算,听起来就像是什么仙气十足的东西,但其实它并不神秘。简单来说,云计算就是通过网络(通常是互联网)来提供各种计算服务,包括存储、数据库、软件、网络等,而不是依靠个人计算机或本地服务器来处理。想象一下,就好像你可以通过互联网租用一台强大的

    2024年04月22日
    浏览(36)
  • 实操Hadoop大数据高可用集群搭建(hadoop3.1.3+zookeeper3.5.7+hbase3.1.3+kafka2.12)

    前言 纯实操,无理论,本文是给公司搭建测试环境时记录的,已经按照这一套搭了四五遍大数据集群了,目前使用还未发现问题。 有问题麻烦指出,万分感谢! PS:Centos7.9、Rocky9.1可用 集群配置 ip hostname 系统 CPU 内存 系统盘 数据盘 备注 192.168.22.221 hadoop1 Centos7.9 4 16 250G 19

    2024年02月03日
    浏览(38)
  • 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】

    视频地址: 尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】 尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】 尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-MapReduce】 尚硅谷

    2024年02月06日
    浏览(49)
  • 大数据技术之Hadoop-入门

    分布式:多台服务器共同完成某一项任务。 Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 1)Apache Hadoop 官网地址:http://hadoop.apache.org 下载地址:https://hadoop.apache.org/releases.html 2)Cloudera Hadoop 官网地址:https://www.cloudera.com/downloads/cdh 下载地址:https://docs.cloudera.com/documentatio

    2024年02月02日
    浏览(41)
  • 大数据hadoop生态技术简介

    Hadoop 生态是指围绕 Hadoop 大数据处理平台形成的一系列开源软件和工具,用于支持大规模数据处理、存储、管理、分析和可视化等应用场景。暂时将其核心技术分为9类:  数据采集技术框架: Flume、Logstash、FileBeat;Sqoop和Datax; Cannal和Maxwell 数据存储技术框架:  HDFS、HBas

    2024年02月09日
    浏览(43)
  • 1.初始Hadoop大数据技术

    2001年后,互联网迅速发展,数据量成倍递增。进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。在现今的社会,大数据的应用越来越彰显他的优势,它占领的领域也越来越大,电子

    2024年02月07日
    浏览(40)
  • 大数据技术之Hadoop(二)

    目录 一、Hadoop的诞生 二、大数据概述 三、大数据软件生态 3.1 数据存储相关技术 3.2 数据计算相关技术 3.3 数据传输相关技术 四、什么是Hadoop 本 篇 主 要 讲 解 大 数 据 的 核 心 概 念 以 及 Hadoop 的 基 本 介 绍。 大数据的发展与日益庞大的数据量是密不可分的。从2000年左右

    2024年02月14日
    浏览(35)
  • 大数据技术之Hadoop(HDFS)

    1)HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是 分布式文件管理系统 。HDFS只是分布式文件管理系统中的一种。 2)HDFS定义

    2024年02月04日
    浏览(49)
  • 大数据技术之Hadoop(源码解析)

    大数据技术之Hadoop源码解析 0)回顾 1)需求: 模拟RPC的客户端、服务端、通信协议三者如何工作的 2)代码编写: (1)在HDFSClient项目基础上创建包名com.atguigu.rpc (2)创建RPC协议 (3)创建RPC服务端 (4)创建RPC客户端 3)测试 (1)启动服务端 观察控制台打印:服务器开始

    2024年02月09日
    浏览(40)
  • hadoop win11安装hadoop环境 winutils.exe获取,windows安装大数据运行环境 winutils文件获取,winutils文件 hadoop(十四)

    注:有些win环境的大数据dll文件,winutils.exe需要积分下载,我没有积分,提供一份github链接 每个版本基本都有,挺全。 1. github地址: GitHub - cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windows 2. 从上述链接,下载工程,复制出来自己的版本,我hadoop安装的3.3.4,

    2024年02月04日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包