statistics.correlation(x, y, /) 皮尔逊相关系数(Pearson’s correlation coefficient)简介(摘录自百度百科):
用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有皮尔逊简单相关系数。 皮尔逊相关系数(r)衡量的是线性相关关系,取值在-1到+1之间。若r=0,只能说x与y之间无线性相关关系,不能说无相关关系。相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。 通常情况下通过以下取值范围判断变量的相关强度: 相关系数 0.8-1.0 极强相关; 0.6-0.8 强相关; 0.4-0.6 中等程度相关; 0.2-0.4 弱相关; 0.0-0.2 极弱相关或无相关; 当r大于0小于1时表示x和y正相关关系; 当r大于-1小于0时表示x和y负相关关系; 当r=1时表示x和y完全正相关,r=-1表示x和y完全负相关; 当r=0时表示x和y不相关。 statistics.correlation返回两个输入的皮尔逊相关系数。特殊参数(/)表示它之前的参数只能按位传值。 两个输入虽然不必为常量,但是必须具有相同的长度,并且不少于两个元素,否则会引发StatisticsError。
该函数用到高级的数学知识和复杂的算法,本文不再对它进行数学和算法上的说明。
statistics.linear_regression(x, y, /, *, proportional=False)
下面是一元线性函数的普通式:
y = ax + b,
a——斜率,
b——截距。
最小二乘法简介(摘录自百度百科):
最小二乘法是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具。
1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。只有高斯(时年24岁)所计算的谷神星的轨道,被奥地利天文学家海因里希·奥尔伯斯的观测所证实,使天文界从此可以预测到谷神星的精确位置。同样的方法也产生了哈雷彗星等很多天文学成果。高斯使用的方法就是最小二乘法,该方法发表于1809年他的著作《天体运动论》中 。其实法国科学家勒让德于1806年独立发明“最小二乘法”,但因不为世人所知而默默无闻 。
1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明。 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方来寻找数据的最佳函数匹配(曲线拟合)。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小 。下图是真实数据、带噪声的实验数据和拟合数据的示意图。 statistics.linear_regression使用普通最小二乘法估计得到的简单线性回归曲线中的斜率和截距参数。简单线性回归通过线性函数来描述自变量x和因变量y之间的关系:y = slope * x + intercept + noise。 其中slope和intercept是估计得到的回归参数,而noise代表不可由线性回归解释的数据变异性(它等于因变量的预测值和实际值之间的差异)。 两个输入虽然不必为常量,但是必须具有相同的长度,并且不少于两个元素,否则会引发StatisticsError。特殊参数(/)表示它之前的参数只能按位传值;特殊参数(*)表示它之后的参数只能按关键字传值。 例如,我们可以使用 Monty Python 系列电影的发布日期,又假定出品方保持现有步调的情况下预测到2023年产出的 Monty Python 电影的累计数量。
如果参数proportional=True,则表示假定自变量x和因变量y成正比。数据拟合为通过原点的直线。由于截距始终为0.0,因此基本线性函数简化为:
y = slope * x + noise。
上面的例子改为:
这个函数用到高级的数学知识和复杂的算法,但不影响我们简单、广泛地用到科学研究和工程计算中。 在寻求数量关系的科学研究中,我们可以通过statistics.correlation和statistics.linear_regression寻求自变量x和因变量y(或通过和商积差乘方等变换)的线性关系,从而得到经验公式。
异常 只定义了一个异常: exception statistics.StatisticsError,是ValueError的子类,表示统计相关的异常。