Linux下mmap

这篇具有很好参考价值的文章主要介绍了Linux下mmap。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一.mmap简介

二.为什么需要使用mmap

三.mmap的使用

四.mmap原理


一.mmap简介

什么是mmap了?从名字上来看是memory map也就是地址映射,是一种内存映射文件的方法。mmap是一个可以将一个文件或者其它对象映射到进程的地址空间实现磁盘的地址和进程虚拟地址空间一段虚拟地址的一一对应关系。通过mmap这个系统调用我们可以让进程之间通过映射到同一个普通文件实现共享内存,普通文件被映射到进程地址空间当中之后,进程可以向访问普通内存一样对文件进行一系列操作。

二.为什么需要使用mmap

我们平时再读取文件的时候我们经常使用的方法就是read和write这两个操作系统给我们提供的方法来读写文件的时候,我们需要进行两次拷贝。由于read和write是系统调用所以我们需要先从用户态进入到内核态,然后将磁盘当中的数据拷贝到操作系统的缓冲区当中,然后再将缓冲区当中的数据拷贝到用户态当中。在这个过程当中我们进行了两次拷贝。其过程大致如下图所示:

 Linux下mmap

但是如果我们使用mmap就可以减少一次拷贝这样带来性能上的提升是巨大的。并且我们采用内存操作比read和write要简单一些,我们不需要在用户层定义缓冲区用来保存从内核缓冲区读上来的数据,从而节约了内存的消耗。其大致流程如下:

Linux下mmap

总结:

  • 日常当中使用read或者wirte时需要进行两次拷贝一次是从文件拷贝到内核缓冲区,一次是从内核缓冲区拷贝到用户态。当我们使用mmap时可以减少第二次拷贝,一旦内核将文件映射到内存之后用户进程就可以操作这些数据了,用户进程只需要修改内核当中的内容然后通过内核的内存管理器自动将这些数据刷新到磁盘当中。
  • mmap可以内存提高性能,内核空间和用户空间共用一个缓冲区,如果多个进程正在同一个文件当中进行IO操作那么他们通过使用mmap能够共享一个内核缓冲区从而到达减少内存的消耗

三.mmap的使用

1.首先我们来看看mmap这个函数的声明:

 #include <sys/mman.h>
 void *mmap(void *addr, size_t length, int prot, int flags, 
int fd, off_t offset);

  函数说明:

 创建虚拟内存到物理内存或者文件的映射,下面我们来看看他的这几个参数:

  • addr:映射区的起始地址,如果是NULL系统自动分配
  • length:字节长度自动按照4kb对齐所以建议大小一般填成4kb的整数倍
  • port:映射区域的权限
  • flags:映射的标志位
  • fd:文件描述符
  • offset:文件偏移量自动按照4k对齐

下面我们来说明一下port的取值:

PORT_EXEC:映射的区域具有可执行权限

PROT_READ:映射的区域具有可读权限

PROT_WRITE:映射区域具有可写权限

PROT_NONE:映射区域不可被访问

对应flags的取值:

MAP_SHARED:对映射区域的写入操作直接反映到文件当中

MAP_FIXED:若在start上无法创建映射则失败(如果没有此标记会自动创建)

MAP_PRIVATE:对映射区域的写入操作只反映到缓冲区当中不会写入到真正的文件

MAP_ANONYMOUS:匿名映射将虚拟地址映射到物理内存而不是文件(忽略fd)

MAP_DENYWRITE:拒绝其它文件的写入操作

MAP_LOCKED:锁定映射区域保证其不被置换

返回值:函数的返回值为最后文件映射到进程空间的地址,进程可直接操作起始地址为该值的有效地址。

下面我们来演示一下映射到物理内存的案例:

#include <iostream>
#include <sys/mman.h>
#include <cstring>
#include <cerrno>
#include <cstdio>
using namespace std;
static const int SIZE = 4096;
int main()
{
    char *str = (char *)mmap(NULL, SIZE, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS, 0, 0);
    //注意MAP_PRIVATE和MAP_SHARED
    //建立映射
    if (str == MAP_FAILED)
    {
        printf("%s\n", strerror(errno));
        return -2;
    }
    strcpy(str, "hello ksy");
    puts(str);
    //用于取消映射
    munmap(str, SIZE);

    return 0;
}

运行结果:

Linux下mmap

 下面我们来看一下这个映射到文件该如何进行操作了,这个是特别容易错的。

下面直接给代码(注意这个代码是错误的)

#include <iostream>
#include <sys/mman.h>
#include <cstring>
#include <cerrno>
#include <cstdio>
#include<sys/types.h>
#include<sys/stat.h>
#include<fcntl.h>
#include<unistd.h>
using namespace std;
static const int SIZE = 4096;
int main()
{
    int fd=open("./a.txt",O_RDWR|O_CREAT,0644);
    if(fd<0){
        printf("%s\n",strerror(errno));
        return -1;
    }
    char *str = (char *)mmap(NULL, SIZE, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);
    //注意MAP_PRIVATE和MAP_SHARED
    //建立映射
    if (str == MAP_FAILED)
    {
        printf("%s\n", strerror(errno));
        close(fd);
        return -2;
    }
    strcpy(str,"helloworld");
    close(fd);
   

    return 0;
} 

然后我们编译一下然后再看一下结果:

Linux下mmap

 很多老铁可能直接就懵逼了,没问题啊文件也有啊映射也成功了啊为什么就是映射出现错误了。下面我们来分析一下:

mmap是将虚拟内存映射到文件(物理内存)。按照我们的想法"helloworld"这个字符串应该是要被写入到文件当中。但是我们想一下我们这个文件是新创建的,好像大小是0个字节耶,那么在映射的时候好像也是映射了0个字节,所以这个文件映射过来的内存是没有的,此时我们让里面写东西崩溃了也是正常的。此时我们可以使用truncate函数对文件提前进行处理一下

下面我们来看一下truncate这个函数的原型:

 int truncate(const char *path, off_t length);

函数说明:truncate()会将参数path指定的文件大小改为参数length指定的大小。 如果原来的文件大小比参数length大,则超过的部分会被删除。我们就可以提前使用这个函数提前将文件的大小进行设置这样我们就可以向映射的这块内存进行写入了。下面我们对代码进行一下修改

#include <iostream>
#include <sys/mman.h>
#include <cstring>
#include <cerrno>
#include <cstdio>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
using namespace std;
static const int SIZE = 4096;
int main()
{
    int fd = open("./a.txt", O_RDWR | O_CREAT, 0644);
    truncate("a.txt", 1024);
    if (fd < 0)
    {
        printf("%s\n", strerror(errno));
        return -1;
    }
    char *str = (char *)mmap(NULL, SIZE, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);
    //注意MAP_PRIVATE和MAP_SHARED
    //建立映射
    if (str == MAP_FAILED)
    {
        printf("%s\n", strerror(errno));
        close(fd);
        return -2;
    }
    strcpy(str, "helloworld");
    close(fd);

    return 0;
}

然后我们在运行一下代码:

Linux下mmap

此时我们发现就成功的将其写入到文件当中了.

四.mmap原理

mmap内存映射的实现过程主要分为三个阶段:

(一):进程启动映射过程并在虚拟地址空间当中为映射创建映射区域

   1.进程在用户空间调用mmap也就是上面那个函数。

   2.在当前进程的地址空间当中寻找一段连续的空虚的虚拟地址

   3.给这块虚拟地址分配一个vm_area_struct的结构并对其各个区域进行初始化

   4.将新键的虚拟结构插入到虚拟地址空间的链表或者红黑树当中

(二):实现物理内存地址和虚拟地址的映射关系

  1.为映射分配了新的虚拟地址空间之后通过待映射的文件描述符指针,在文件描述符表当中找到对应的文件描述符链接到内核已经打开的文件描述符集当中的struct_file,这个struct_file维护着这个被打开的文件的各项信息

  2.通过这个文件的结构体链接到file_operations,调用内核的mmap其函数原型为int mmap(struct file*filp,struct vm_area_struct*vma),请注意不是用户态的mmap

3.内核mmap函数通过虚拟文件系统当中的inode定位到文件的物理地址

4.通过reamp_pfn_range函数建立页表即实现了文件地址和虚拟地址的映射关系。

(三)

1.进程的读或写操作访问虚拟地址空间这一段映射地址,通过查询页表,发现这一段地址并不在物理页面上。因为目前只建立了地址映射,真正的硬盘数据还没有拷贝到内存中,因此引发缺页异常。

2.缺页异常进行一系列判断,确定无非法操作后,内核发起请求调页过程。

3.调页过程先在交换缓存空间(swap cache)中寻找需要访问的内存页,如果没有则调用nopage函数把所缺的页从磁盘装入到主存中。

4.之后进程即可对这片主存进行读或者写的操作,如果写操作改变了其内容,一定时间后系统会自动回写脏页面到对应磁盘地址,也即完成了写入到文件的过程文章来源地址https://www.toymoban.com/news/detail-450584.html

到了这里,关于Linux下mmap的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 为什么需要websocket?

    前端和后端的交互模式最常见的就是前端发数据请求,从后端拿到数据后展示到页面中。如果前端不做操作,后端不能主动向前端推送数据,这也是http协议的缺陷。        因此,一种新的通信协议应运而生---websocket,他最大的特点就是服务端可以主动向客户端推送消息,客

    2024年02月12日
    浏览(56)
  • 为什么需要单元测试?

    为什么需要单元测试? 从产品角度而言,常规的功能测试、系统测试都是站在产品局部或全局功能进行测试,能够很好地与用户的需要相结合,但是缺乏了对产品研发细节(特别是代码细节的理解)。 从测试人员角度而言,功能测试和系统测试以及其他性能测试等等对测试

    2024年02月12日
    浏览(65)
  • 为什么CPU需要时钟

    为什么CPU需要时钟这样一个概念? 什么是时钟脉冲,CPU为什么需要时钟,时钟信号是怎么产生的? 上面这个图的方波就是一个脉冲,类比于人类的脉搏跳动。一个脉冲称之为CPU的一个 时钟信号 ,或者 时钟脉冲 。一个脉冲周期就叫CPU时钟周期,一个时钟周期内时钟信号震荡一

    2023年04月11日
    浏览(49)
  • 爬虫为什么需要ip

    爬虫需要使用爬虫ip主要是为了解决以下问题: 1、反爬虫机制:许多网站会设置反爬虫机制来防止爬虫程序的访问,例如限制IP地址的访问频率、检测访问来源等。使用爬虫ip可以绕过这些限制,使得爬虫程序更难被检测到。 2、访问限制:有些网站可能会对某些地区的IP地址

    2024年02月02日
    浏览(55)
  • 爬虫时为什么需要代理?

    我们都知道爬虫时是需要代理地址介入的。使用代理可以隐藏你的真实IP地址,防止被网站封禁或限制访问。此外,代理还可以帮助你绕过地理限制,访问被封锁的网站或服务。但是请注意,使用代理也可能会带来一些风险,例如代理服务器可能会记录你的访问数据,或者代

    2024年02月06日
    浏览(52)
  • 为什么自动驾驶需要5G?

    什么叫自动驾驶? 自动驾驶分为6个等级: Level 0: 人工驾驶,无驾驶辅助系统,仅提醒。 Level 1: 辅助人工驾驶,可实现单一的车速或转向控制自动化,仍由人工驾驶(如定速巡航、ACC)。 Level 2: 部分自动驾驶,可实现车速和转向控制自动化,驾驶员必须始终保持监控(

    2024年02月08日
    浏览(61)
  • 为什么需要对相机标定?

    以下内容来自系统教程如何搞定单目/鱼眼/双目/阵列 相机标定? 点击领取相机标定资料和代码 为什么需要对相机标定? 我们所处的世界是三维的,而相机拍摄的照片却是二维的,丢失了其中距离/深度的信息。从数学上可以简单理解为,相机本身类似一个映射函数,其将输

    2024年02月06日
    浏览(51)
  • 什么是分库分表?为什么需要分表?什么时候分库分表

    不急于上手实战  ShardingSphere  框架,先来复习下分库分表的基础概念,技术名词大多晦涩难懂,不要死记硬背理解最重要,当你捅破那层窗户纸,发现其实它也就那么回事。 分库分表是在海量数据下,由于单库、表数据量过大,导致数据库性能持续下降的问题,演变出的技

    2023年04月26日
    浏览(142)
  • 为什么需要自动化测试

    自动化的优势: 1.自动化可以代替手工大量地重复的工作,测试可以把大量的时间放在用例设计和新功能上边 2.自动化可以大量提升回归测试效率,特别适合敏捷开发 3.自动化可以大量地利用无人值守的时间去执行用例,特别适合非工作是爱你执行测试,工作时间分析测试用

    2024年02月13日
    浏览(63)
  • 为什么商业基础软件需要开源

    Bytebase 本身是一家商业软件公司,而作为最核心资产的代码从 Day 0 却是开源的。同时我们还是 star-history.com 的运营者,大家在各种开源渠道会看到它生成的图: 一直以来,常会被别人问起的一个问题,就是为什么 Bytebase 要开源。结合这 2 年多的实战经验,一次性把能想到的

    2024年02月13日
    浏览(96)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包