可解释机器学习笔记（一）——可解释性-Toy模板网

这篇具有很好参考价值的文章主要介绍了可解释机器学习笔记（一）——可解释性。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

可解释性定义

可解释性没有数学上的定义。
1、可解释性是指人们能够理解决策原因的程度。
2、可解释性是指人们能够一致地预测模型结果的程度。

可解释性包含的性质

如果要确保机器学习模型能够解释决策，除了从定义出发，还可以更容易地检查以下性质：
1、公平性(Fairness)。确保预测是公正的，不会隐式或显式地歧视受保护的群体。
2、隐私性(Privacy)。确保保护数据中的敏感信息。
3、可靠性(Reliability)或鲁棒性(Robustness)。确保输入的微小变化不会导致预测发生剧烈变化。
4、因果性(Causality)。检查是否只找到因果关系。
5、可信任性(Trust)。与黑匣子相比，人们跟容易信任用于解释其决策的系统。

可解释性方法分类

自解释 or 事后可解释

自解释：书中给出的定义是，通过限制机器学习模型的复杂性（称为内在的，也可称为本质上的），说明模型的可解释性。自解释性是指由于结构简单而被认为是可解释的机器学习模型。
事后解释：在训练后分析模型的方法，说明模型的可解释性。事后可解释性是指：模型训练之后运用解释方法，与模型无关的。

解释方法的输出

可以根据解释方法的输出大致区分各种解释方法。

特征概要统计量(Feature Summary Statistic)

许多解释方法为每个特征提供概要统计量。有些方法为每个特征返回一个数字，例如：特征重要性；或者更复杂的输出，例如：成对特征交互强度，即每个特征对表示一个数字。

特征概要可视化(Feature Summary Visualization)

大多数特征概要统计信息也可以可视化。部分依赖图是显示特征和平均预测结果的曲线。

模型内部(Model Internal)

一种方法是自解释模型的解释方法，例如：线性模型中的权重或决策树学习得到的树结构。另一种方法是输出模型内部结构，例如：在卷积神经网络中将学习到的特征检测器可视化。根据定义，输出模型内部的可解释性方法是特定于模型的。

数据点(Data Point)

这种方法返回已经存在或者新创建的数据点以使模型具有可解释性。一种方法称为反事实解释(Counterfactual Explanation)，为了解释对数据实例的预测，该方法通过用一些方式改变某些特征以改变预测结果（例如：预测类别的翻转），找到相似的数据点。另一种方法是识别预测类的原型，输出新数据点的解释方法要求可以解释数据点本身。