强基初中数学&学Python——第223课 数字和数学模块之六:statistics——数学统计函数(5)


  NormalDist对象

  正态分布简介(摘录自百度百科):  正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。  正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。  若随机变量X服从一个数学期望为μ、方差为σ²的正态分布,记为N(μ,σ²)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

 

  NormalDist对象可用于创建和操纵随机变量的正态分布。这个类将数据度量值的平均值和标准差作为单一实体来处理。
class statistics.NormalDist(mu=0.0, sigma=1.0)  返回一个新的NormalDist对象,其中mu代表算术平均值而sigma代表 标准差。  sigma为负数,将会引发StatisticsError。

mean  一个只读特征属性,表示特定正态分布的算术平均值
median  一个只读特征属性,表示特定正态分布的中位数
mode  一个只读特征属性,表示特定正态分布的众数
stdev  一个只读特征属性,表示特定正态分布的标准差
variance  一个只读特征属性,表示特定正态分布的方差。等于标准差的平方。
classmethod from_samples(data)  传入使用 fmean() 和 stdev() 基于 data 估算出的 mu 和 sigma 形参创建一个正态分布实例。  data 可以是任何 iterable(可迭代对象) 并且应当包含能被转换为 float 类型的值。如果 data 不包含至少两个元素,则会引发 StatisticsError,因为估算中心值至少需要一个点而估算分散度至少需要两个点。

samples(n, *, seed=None)  对于给定的平均值和标准差生成 n 个随机样本。返回一个由 float 值组成的 list。  当给定 seed 时,创建一个新的底层随机数生成器实例。这适用于创建可重现的结果,即使对于多线程上下文也有效。  测试构造函数、属性和上面两个方法:

 

pdf(x)  累积分布函数和概率密度函数浅解:  如下图,如果用曲线和横轴所围成的图形面积为总概率,那么这条连续的曲线就是概率密度函数(图形表示的函数);把面积与横轴绘制成函数曲线,就是积累分布函数。

 

概率密度函数图

 

累积分布函数图

 

  使用概率密度函数(pdf),计算一个随机变量X趋向于给定值x的相对可能性,即概率密度函数值,是概率密度函数图上一点;或累积分布函数在x点的斜率。  相对可能性的计算方法是样本在(累积分布函数)很窄范围内出现的概率除以范围的宽度(即“密度”一词)。由于相对可能性是相对于其他点的(是一个比值),因此其值可以大于1.0。如下图。

 

 

cdf(x)  使用累积分布函数(cdf),计算一个随机变量 X 小于等于 x 的概率。在概率密度函数图中是负无穷到x点的面积;在积累分布函数图中是一点。

 

inv_cdf(p)  计算逆累积分布函数,也称为分位数函数或百分位函数。通俗地讲,就是解累积分布方程。找出随机变量X的值x,使得该变量小于等于该值的概率等于给定的概率p。

 

overlap(other)  计算两个正态概率分布之间的一致性。返回介于 0.0 和 1.0 之间的值,给出 两个概率密度函数的重叠区域。下图阴影部分面积。

 

 

quantiles(n=4)  将指定正态分布划分为 n 个相等概率的连续分隔区(即面积相等,而非横轴等距。)。返回这些分隔区对应的 (n - 1) 个分隔点的列表。   n 设为 4 以使用四分区(默认值)。将 n 设为 10 以使用10分区。将 n 设为 100 以使用100分区,即给出 99 个分隔点来将正态分布分隔为 100 个大小相等的组。

 

zscore(x)  计算标准分,即以高于或低于正态分布的平均值的标准差数值的形式来描述 x: (x - mean) / stdev。

 

  NormalDist的实例支持加上、减去、乘以或除以一个常量。这些运算被用于转换和缩放。
加上或减去一个常量  可见,实例加减是加减到mu参数里, sigma保持不变。
乘以或除以一个常量

 

  可见,实例的musigma参数都乘以或除以这个常量。

  不允许一个常量除以 NormalDist 的实例,因为结果将不是正态分布。


两个实例相加减  由于正态分布是由独立变量的累加效应产生的,因此允许表示为 NormalDist实例的两组独立正态分布的随机变量相加和相减。例如:  可见,mu参数相加减;sigma参数可能是进行图形合并所得,而且加与减的值是一样的。