【软件分析/静态分析】学习笔记01——Introduction

这篇具有很好参考价值的文章主要介绍了【软件分析/静态分析】学习笔记01——Introduction。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

🔗 课程链接:李樾老师和谭天老师的:南京大学《软件分析》课程01(Introduction)_哔哩哔哩_bilibili

目录

一、静态程序分析介绍

1.1 PL and Static Analysis 程序语言和静态分析

1.2 为什么要学 Static Analysis?

1.3 什么是静态分析 ?

1.4 静态分析的特征和例子

1.4.1 sound and complete (no perfect static analysis)

1.4.2 false negatives or false positives (useful static analysis)

1.4.3 Static Analysis 例子 — Bird's Eye View

1.5 静态分析大致步骤—举个例子🌰

1.5.1 Abstraction(抽象)

1.5.2 Over-approximation(近似): Transfer Functions(转换函数)

1.5.3 Over-approximation(近似): Control Flow(控制流)

1.5.4 总结


一、静态程序分析介绍

1.1 PL and Static Analysis 程序语言和静态分析

PL (Programming Languages, 程序语言)

Static Analysis(静态分析)

如下图所示,PL可以分为三个主题:理论、环境和应用

  • 理论:语言设计、语言的类型系统、形式语义和逻辑……
  • 环境:编译、运行时系统……
  • 应用:程序分析、程序验证、程序合成……

【软件分析/静态分析】学习笔记01——Introduction

程序语言的分类

  •  命令形语言:C、Java
  •  函数式语言:JavaScript、
  •  逻辑式语言:一条条逻辑声明出来的语言

挑战
        这么多年来,语言的核心没有变,但是软件越来越复杂,如何保证大规模复杂程序的安全性、可靠性……?

1.2 为什么要学 Static Analysis?

从代码层面来看,静态分析可以做很多事情,后续也会详细讲到:

  • 对程序可靠性Program Reliability
        空指针引用 null pointer dereference, 内存泄漏 memory leak……
  • 对安全性 Program Security
         私有信息泄露 private infomation leak, 注入攻击injection attack……
  • 编译优化 Compiler Optimization
        死代码消除 Dead code elimination,code motion……
  • 程序理解 Program Understanding
        IDE call hierarchy, type indication……

对于程序员,静态分析可以帮助写更高质量的代码。

1.3 什么是静态分析 ?

Static analysis analyzes a program P to reason about its behaviors and
determines whether it satisfies some properties before running P.

静态分析(static analysis) 是在程序运行之前,分析其行为,确定它是是否能满足某些特性要求:

  • 有没有一些程序泄露
  • 有没有空指针引用异常?
  • 所有的变量variable 用之前都初始化了吗?
  • 所有的cast operation是安全的吗?
  • v1和v2会不会指向相同的内存地址?
  • 程序中的断言语句 assert 会失败吗?
  • 死代码?
  • ……

但是,根据Rice' Theorem(大米定理/莱斯定理),不存在一个方法可以给出一个确切的答案Yes or No,原文如下:

"Any non-trivial property of the behavior ofprograms in a r.e.language is undecidable."

这句话里的一些词:

  • r.e.(recursively enumerable) = recognizable by a Turing-machine
    r.e. language递归可枚举的语言(图灵机可识别的语言,可以理解为现代的编程语言,C 、JAVA)
  • non-trivial property:≈ 一些有趣/有价值的性质 ≈ 与动态运行时行为runtime behaviors相关的性质,就像前边列举的空指针、内存变量什么的。
  • undecidable: 给不出确切答案

可以这么理解:    

        一个递归可枚举的语言(图灵机可识别的语言,可以理解为现代的编程语言,C 、JAVA),他的一些non-trivail property(与程序运行时行为相关的性质,例如是否有空指针、有没有内存泄漏)是不能确定的(例如不能准确地说有空指针或者没有)。

再学术一点的理解:

        一个 完美的静态分析(perfect static analysis) 是满足 sound and complete 的(sound 和 comlete是 静态分析的两个特征,见1.4.1).
        大米定理就是在告诉我们,不存在完美的静态分析,可以准确地回答Truth,也就是不能同时满足sound 和 complete.

1.4 静态分析的特征和例子

为什么没有一个perfect的呢,因为一些情况其实不可避免,导致分析要么太“过”(sound),要么太“保守”(complete)。

1.4.1 sound and complete (no perfect static analysis)

【软件分析/静态分析】学习笔记01——Introduction

        如图所示,complete和sound的关系:

  • truth:是这个程序中理论上的所有的正确的答案
  • complete:指的是,报出来的,都是对的,但是不全
  • sound:包含了所有正确答案,

1.4.2 false negatives or false positives (useful static analysis)

既然没有perfect静态分析,为什么还要去研究呢?因为可以对一方妥协,由此就有了useful static analysis(有用的静态分析)。

Useful static analysis:

  • Compromise soundness (false negatives,假阴性) : 妥协soundness,就是不sound,会产生漏报(错的没检测到)
  • Compromise completeness(false positives,假阳性):妥协completeness,不complete,会产生误报(对的说是错的)

在绝大Useful静态分析中,我们所研究的更多是妥协completeness:要求分析是 Sound 的,虽然并不全都准确(not fully-precise)(宁可错杀100不可放过一个),可以误报,但是不能漏。

soundness越好,分析就越好。

1.4.3 Static Analysis 例子 — Bird's Eye View

        如下图,对左侧的代码进行分析的时候,产生的2个分析结果

【软件分析/静态分析】学习笔记01——Introduction

        这两个分析结果都是对的,没有产生漏报,都满足sound,且:
                1 更准确但是昂贵;
                2 不够准确但是cheep;
        还有一些可能的分析结果如下:
                3. x = 0, 1, 2, 3, 4
                4. x = 1, 2, 3, 4
        其中,3产生了误报,都是涵盖了所有情况,也是sound,是对的;都是4漏了0,是错误的。

一句话概括静态分析

        静态分析是在确保(or 尽量接近)soundness的同时,在分析精度(precision)速度(speed)之间做一个平衡,这才是一个Useful 静态分析

在实际分析中,可能不存在真正的soundness的,例如java的反射机制、Java的动态类机制,都会影响到soundness,所以是“尽量接近”soundness。

1.5 静态分析大致步骤—举个例子🌰

从技术层面分析静态分析的大致步骤,用两个词来总结静态分析:
Static Analysis = Abstraction + Over-approximation 

以下通过一个例子来初步感受一下静态分析:

例如:要给一个程序的所有变量判断正负(+,0,-),需要以下两步:

  • Abstraction
  • Over-approximation
    • Transfer functions
    • Control flows

1.5.1 Abstraction(抽象)

  •   抽象就是把具体的域值映射到抽象域里。

        如下图,将左边的变量映射到右边不同的正负情况。抽象成不同的符号。

   【软件分析/静态分析】学习笔记01——Introduction

  •  (unknown):如果当前数值会因为变量改变而呈现为不同的状态
  •  (undefined): 经过判断肯定不符合int定义的,例如一个除以0的数或者字符等。

1.5.2 Over-approximation(近似): Transfer Functions(转换函数)

        在完成抽象之后,我们需要做的就是近似,其中一部就是用到转换函数,转换函数的作用可以概括为如下两句:

  • 在静态分析中,转换函数定义了一种转换规则:如何评估关于抽象值的不同程序语句
  • 根据“要分析的问题/目标”和不同程序中的“语义(semantics)”来进行评估。

        针对于这个例子要分析的问题,转换的规则如下图所示:
                【软件分析/静态分析】学习笔记01——Introduction

         利用以上规则,来评估一下具体的程序语句,如下:

                【软件分析/静态分析】学习笔记01——Introduction

  • 对于变量c:我们找到了一个除以零的错误
  • 对于变量p:y是负数,我们找到了一个负数索引的错误
  • 对于变量q:因为a不确定是否为负数,而判定其为undefined,但其实a并不是负数,这里就是一个误报

        通过判断符号,我们成功找到了两个错误 c 和 p,说明静态分析是很有用的useful,但是Over-approximation 的静态分析也产生了误报 假阳性 false positives

1.5.3 Over-approximation(近似): Control Flow(控制流)

  • 近似还要有控制流,也就是程序执行的流,要将所有流汇聚的地方,进行合并抽象 flow merging

        如下图左侧的程序片段转为右侧的控制流,然后判断符号,[ z = x + y ] 是汇聚的点,所以要枚举其所有分支,进行合并,即 [ y = ] 

【软件分析/静态分析】学习笔记01——Introduction

        在静态分析中,如果程序很复杂,我们无法在实际应用中枚举所有的路径,分支流合flow merging (作为over-approximation 的一种方式)是常用的分支推断技术,提升了Soundness,也降低了Completeness,也导致了不可避免的误报问题。

1.5.4 总结

        抽象就是将具体值,转为符号值。因为在Abstraction抽象过程中进行了值域空间的 降维抽象 ,所以在转换函数映射中,静态符号执行和动态实际实行的结果之间,是存在差异的,这是不可避免的。

        近似就是将每个语句,和每个语句之间的关联进行抽象,化为图来说,就是每个节点,和每个节点之间的箭头
        · transfer funtions 是对每个语句的近似;
        · control flow 的近似就是 每个箭头 的近似

        将每个语句,以及不同语句之间的箭头 都进行近似,就实现了对整个程序近似文章来源地址https://www.toymoban.com/news/detail-462224.html

到了这里,关于【软件分析/静态分析】学习笔记01——Introduction的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [系统安全] 四十六.恶意软件分析 (2)静态分析Capa经典工具批量提取静态特征和ATT&CK技战术

    终于忙完初稿,开心地写一篇博客。 您可能之前看到过我写的类似文章,为什么还要重复撰写呢?只是想更好地帮助初学者了解病毒逆向分析和系统安全,更加成体系且不破坏之前的系列。因此,我重新开设了这个专栏,准备系统整理和深入学习系统安全、逆向分析和恶意代

    2024年02月11日
    浏览(43)
  • 数据分析讲课笔记01:数据分析概述

    理解数据分析背景 :学生将能够阐述大数据时代对数据分析的影响,以及数据分析在商业决策、科研发现、产品优化等方面的重要作用。 掌握数据分析基本概念与分类 :学生应能清晰定义数据分析的概念,并能区分描述性数据分析(用于总结和解释数据集的特征)、探索性

    2024年02月01日
    浏览(53)
  • 讲课笔记01:数据分析概述

    2023年06月20日
    浏览(45)
  • [系统安全] 四十五.恶意软件分析 (1)静态分析Capa经典工具的基本用法万字详解

    您可能之前看到过我写的类似文章,为什么还要重复撰写呢?只是想更好地帮助初学者了解病毒逆向分析和系统安全,更加成体系且不破坏之前的系列。因此,我重新开设了这个专栏,准备系统整理和深入学习系统安全、逆向分析和恶意代码检测,“系统安全”系列文章会更

    2023年04月16日
    浏览(47)
  • C++(Qt)软件调试---静态分析工具clang-tidy(18)

    更多精彩内容 👉个人内容分类汇总 👈 👉C++软件调试、异常定位 👈 现在很多人在开发中完全忽略了编译器、IDE的警告提示,这怎么可能写出稳定的程序。 clang-tidy是一个由LLVM项目提供的开源工具,是一个静态分析工具,用于进行静态代码分析和代码质量改进。 支持C++/C

    2024年01月23日
    浏览(39)
  • AI作曲基础-Python编程作曲软件篇-FoxDot文档及源码分析-官方教程01

    本系列系列目录放在文尾; 本系列是AI作曲的基础,暂时和AI关系不大,但尤为重要; 借助FoxDot,从文档分析开始,然后进入源码分析环节; 暂未发现官方中文版,实践顺带翻译,会根据需要不定期校对及更新,欢迎催更~ 教程来源 FoxDot官方主页在此:https://foxdot.org/ FoxDot官

    2024年02月11日
    浏览(35)
  • [静态资源]学习笔记

    Tps:有免费的对象存储和cdn额度 用来存放项目的静态资源(如音频,视频,安装包,其他文件等),网站加速也行 用邮箱注册账号 实名认证 新建对象存储 存放文件资源 新建CDN CDN的域名管理-新建域名,绑定你的域名(我用的是申请的公司的二级域名) 等待申请通过 在新建的对象存储上

    2023年04月17日
    浏览(43)
  • HTML学习笔记01

    HTML: Hyper Text Markup Language (超文本标记语言) HTML 5,提供了一些新的元素和一些有趣的新特性,同时也建立了一些新的规则。这些元素、特性和规则的建立,提供了许多新的网页功能,如使用网页实现动态渲染图形、图表、图像和动画,以及不需要安装任何插件直接使用网

    2024年02月11日
    浏览(49)
  • Spark大数据分析与实战笔记(第二章 Spark基础-01)

    宁愿跑起来被拌倒无数次,也不愿规规矩矩走一辈子,就算跌倒也要豪迈的笑。 Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室,它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快,而且内置了丰富的API,使得我们能够更加容易编写程序。 Spark下

    2024年02月03日
    浏览(74)
  • Redis7学习笔记01

    ①、适合对象,从小白到熟手,一套全包圆 ②、Redis专题-大厂面试题,含100道+ ③、Redis专题-真实需求生产真实案例 ④、Redis7新特性 ①、面试题 ②、专题 Remote Dictionary Server(远程字典服务)是完全开源的,使用ANSIC语言编写遵守BSD协议,是一个高性能的Key-Value数据库提供了丰

    2024年02月15日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包