hadoop(学习笔记) 4----怎么把文件放到hdfs上?

这篇具有很好参考价值的文章主要介绍了hadoop(学习笔记) 4----怎么把文件放到hdfs上?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


怎么把文件放到hdfs上?
首先就是需要将hdfs相关程序启动起来----namenode和datanode

namendoe->相当于目录,不进行文件信息的存储
datanode->真正数据存放的位置

但namenode的默认存放位置在tmp文件下,tmp又是临时文件,随时可能被系统清除,我们存放在hdfs上的数据并不安全,所以我们需要修改一下namenode和datanode的存放位置
上传文件至hdfs,hadoop,学习,笔记

上传文件至hdfs,hadoop,学习,笔记

1.namenode的存储机制

  • fsimage:第一次namenode格式化->在硬盘上生成镜像文件fsimage(持久化存储)->进行元数据的存储

  • edits:以后进行hdfs文件的存取等文件操作->就会再生成一个文件edits(这是一个编辑文件 用于进行文件操作的记录)

  • 只要进行namenode格式化,就会生成fsimage和edits这两个文件,两者结合使用,进行数据存储,防止数据丢失
    上传文件至hdfs,hadoop,学习,笔记

  • edits_inprogress_0000000000000000003在形成新的edits文件前,数据就在这个文件中进行预存储(防止数据丢失)

上传文件至hdfs,hadoop,学习,笔记

  • 但是会生成很多的fsimage和edits文件,我们要怎么读取呢?
  • secondarynamenode->将fsimage和edits文件进行合并->合并之后就是一个fsimage镜像文件->在下一次启动时,直接加载fsimage中的内容

2.datanode的存储机制

namenode和datanode之间,会有一个心跳一致检查,来确保数据存储到对应的datanode中

3.修改namenode,datanode的存放位置

  • namenode自己的存储机制 目的是防止数据丢失->可是namenode的默认存放位置在tmp文件夹下,tmp文件是系统文件,并且每隔一段时间都会自我清除,那么namenode的存储机制就没有用了->所以我们需要把namenode的存放位置进行更改

(1)根据官网 获得配置代码

上传文件至hdfs,hadoop,学习,笔记

上传文件至hdfs,hadoop,学习,笔记

(2)nodepad++中找到自己路径下的hadoop/etc/hadoop/hdfs-site.xml

上传文件至hdfs,hadoop,学习,笔记

(3)core-site.xml和hdfs-site.xml配置代码

虚拟机中创建自己想要存放namenode和datanode位置的文件夹
上传文件至hdfs,hadoop,学习,笔记
- 注:nodepad++ 打完代码后记得ctrl+s保存一下
上传文件至hdfs,hadoop,学习,笔记

上传文件至hdfs,hadoop,学习,笔记
(官网)
上传文件至hdfs,hadoop,学习,笔记

(3)关闭namenode和datanode

上传文件至hdfs,hadoop,学习,笔记

(4)删除原来格式化文件

只有把原来格式化文件删掉,才能重新格式化,不然namenode肯定起不来

rm -rf hadoop-root/

上传文件至hdfs,hadoop,学习,笔记

(5)重新格式化namenode

hadoop namenode -format

上传文件至hdfs,hadoop,学习,笔记
格式化成功----(在最后几行可以找到如下图的代码)
上传文件至hdfs,hadoop,学习,笔记

(6)重新启动namenode和datanode

//在自己路径下的hadoop的sbin下
//我的是 cd /opt/soft/hadoop/sbin
./hadoop-daemon.sh start namenode
./hadoop-daemon.sh start datanode

上传文件至hdfs,hadoop,学习,笔记

(7)网页中namenode的存储地址已经修改

上传文件至hdfs,hadoop,学习,笔记

4.Notepad++ 连接配置

(1)NppFTP插件安装

上传文件至hdfs,hadoop,学习,笔记

(2)nodepad++ 与虚拟机连接

上传文件至hdfs,hadoop,学习,笔记
上传文件至hdfs,hadoop,学习,笔记
上传文件至hdfs,hadoop,学习,笔记
上传文件至hdfs,hadoop,学习,笔记
上传文件至hdfs,hadoop,学习,笔记
连接成功
上传文件至hdfs,hadoop,学习,笔记
上传文件至hdfs,hadoop,学习,笔记

5.hdfs文件的操作

文件夹操作

(1)指定文件夹路径----mkdir

//在根目录中创建 名为a的文件夹
hdfs dfs -mkdir /a

上传文件至hdfs,hadoop,学习,笔记

上传文件至hdfs,hadoop,学习,笔记

(2)多层级文件夹的创建----mkdir -p

//在根目录下创建a文件夹,在a下创建b,b下创建c,c下创建d
hdfs dfs -mkdir -p /a/b/c/d

上传文件至hdfs,hadoop,学习,笔记

(3)移动文件夹----mv

//把d文件夹 移动到 /(根目录)下
hdfs dfs -mv /a/b/c/d /

上传文件至hdfs,hadoop,学习,笔记

(4)文件夹改名----mv

//把d文件夹的名称 改为 dd
hdfs dfs -mv /d /dd

上传文件至hdfs,hadoop,学习,笔记

(5)删除文件夹----rm -r

-R标识—>当前的路径表示是文件夹

//删除 /a/b/c文件夹
hdfs dfs -rm -R /a/b/c

上传文件至hdfs,hadoop,学习,笔记
上传文件至hdfs,hadoop,学习,笔记

文件操作

(1) 将本地文件上传到hdfs中----put

  • put命令:用来将本地的文件上传到hdfs上
  • put格式: put 本地文件名 hdfs上的目标文件名
//将datas.txt文件上传到 hdfs上的根目录下
hdfs dfs -put datas.txt /

上传文件至hdfs,hadoop,学习,笔记
上传文件至hdfs,hadoop,学习,笔记

replication:默认是3,但是如果进行单节点的服务器搭建,一般会改成1(因为只有一台服务器,不管存多少份,这一台服务器坏了,所有的数据都会消失)
官网修改方法: apache
上传文件至hdfs,hadoop,学习,笔记

(2)下载文件----get

  • get 命令:用来从hdfs上下载文件,并存储在本地
  • get 命令格式:get hdfs上的源文件名 下载后保存到本地的文件名
//把hdfs中根目录下a.txt文件下载到虚拟机/opt/a中
hdfs dfs -get /a.txt /opt/a

上传文件至hdfs,hadoop,学习,笔记

(3)文件复制----cp

//把根目录下的data.txt复制到 /a 下
hdfs dfs -cp /datas.txt /a

上传文件至hdfs,hadoop,学习,笔记

(4)文件改名----mv

//把根目录下的data.txt 改名为 a.txt
hdfs dfs -mv /datas.txt /a.txt

(5)文件的移动----mv

把根目录下的a.txt文件移动到/a/b下
hdfs dfs -mv /a.txt /a/b

(6)文件列表的查看----ls

hdfs dfs -ls /a

上传文件至hdfs,hadoop,学习,笔记

(7)文件内容的查看----cat

//查看a下datas.txt文件的内容
hdfs dfs -cat /a/datas.txt

(8)空文件创建----touch

//在根目录下创建一个名为a.txt的空文件
hdfs dfs -touch /a.txt

(9)文件内容拼接----appendToFile

把文件a中的内容拼接到指定文件b中,注意文件b必须为空文件,不然会报错

//把文件datas.txt的内容拼接到 /a.txt中
hdfs dfs -appendToFile datas.txt /a.txt

上传文件至hdfs,hadoop,学习,笔记
上传文件至hdfs,hadoop,学习,笔记

(10)文件删除

//删除hdfs中根目录下的a.txt文件
hdfs dfs -rm /a.txt

上传文件至hdfs,hadoop,学习,笔记

块池

datanode有自己的数据存储机制----通过数据块进行的数据存储,数据块存在于块池中
数据块就是文件在hdfs中文件存储党的一个格式
上传文件至hdfs,hadoop,学习,笔记
上传文件至hdfs,hadoop,学习,笔记
[root@test1 subdir0]# pwd
/opt/datas/dfs/datas/current/BP-80508231-192.168.246.103-1696959173959/current/finalized/subdir0/subdir0文章来源地址https://www.toymoban.com/news/detail-763293.html

到了这里,关于hadoop(学习笔记) 4----怎么把文件放到hdfs上?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop学习笔记之HDFS

    分布式存储系统 支持海量数据的存储,成百上千的计算机组成存储集群,HDFS可以运行在低成本的硬件之上,具有的高容错、高可靠性、高可扩展性、高吞吐率等特征,非常适合大规模数据集上的应用。 优点 高容错性 适合批处理 适合大数据处理 流式文件访问 可构建在廉价

    2024年02月07日
    浏览(41)
  • hadoop生态圈-- 个人笔记学习05 HDFS优化

    DFSClient和DN在一个节点 —— local reads,远程阅读 Remote reads。 处理方式是一样的 DN读数据 通过RPC(TCP协议)把数据给DFSClient。DN在中间会做中转,处理简单但是性能收影响 (Local read的情况下,会希望绕过DN直接读取Data,这就是 短路 DFSClient自行打开文件读取数据,需要配置白名

    2024年02月13日
    浏览(74)
  • Hadoop入门学习笔记——二、在虚拟机里部署HDFS集群

    视频课程地址:https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接:https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入门学习笔记(汇总) 下载Hadoop:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz 本次演示部署结构如下图所示: 本次部署服务清单如下表所示

    2024年02月01日
    浏览(49)
  • Hadoop - HDFS文件系统

    目录 HDFS文件系统  1、文件系统定义 2、大数据时代,面对海量数据,传统的文件存储系统会面临哪些挑战? 3、分布式存储系统的核心属性及功能含义 一、分布式存储的优点 二、元数据记录的功能 三、分块存储好处 四、副本机制的作用 4、HDFS简介 HDFS适用场景 5、HDFS主从架

    2023年04月08日
    浏览(39)
  • 尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

    视频地址: 尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】 尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】 尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-MapReduce】 尚硅谷

    2023年04月08日
    浏览(98)
  • Hadoop学习-集群配置文件core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml

    配置核心文件 core-site.xml 编辑core-site.xml(进入hadoop文件夹内) hdfs-site.xml yarn-site.xml mapred-site.xml 配置完后要分发给其他服务器,可以使用之前写的分发脚本xsync进行快速分发 配置workers(各集群节点) 启动集群 如果集群是第一次启动 ,需要在 hadoop102 节点格式化 NameNode(注意:格式

    2024年02月08日
    浏览(46)
  • Hadoop分布式文件系统-HDFS

    HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成: - NameNode : 负责执行有关 ` 文件系统命名空间 ` 的操作,例如打开,关闭、

    2024年02月07日
    浏览(54)
  • Hadoop HDFS(分布式文件系统)

    一、Hadoop HDFS(分布式文件系统) 为什么要分布式存储数据 假设一个文件有100tb,我们就把文件划分为多个部分,放入到多个服务器 靠数量取胜,多台服务器组合,才能Hold住 数据量太大,单机存储能力有上限,需要靠数量来解决问题 数量的提升带来的是网络传输,磁盘读写,

    2024年02月06日
    浏览(50)
  • 文件上传学习笔记

    文件上传是指将本地图片,视频,音频等文件上传到服务器,供其它用户浏览或下载的过程 文件上传前端三要素 : file表单项 post方式 multipart/from-data 服务端接收文件 : 用spring中的API : MultipartFile 要想文件名唯一 : 可以使用uuid技术 在SpringBoot中,文件上传,默认的单个文件最大

    2024年02月05日
    浏览(31)
  • Hadoop:HDFS--分布式文件存储系统

    目录   HDFS的基础架构 VMware虚拟机部署HDFS集群 HDFS集群启停命令 HDFS Shell操作 hadoop 命令体系: 创建文件夹 -mkdir  查看目录内容 -ls  上传文件到hdfs -put 查看HDFS文件内容 -cat 下载HDFS文件 -get 复制HDFS文件 -cp 追加数据到HDFS文件中 -appendToFile HDFS文件移动 -mv  删除HDFS文件 -rm  

    2024年02月09日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包