正态分布(Normal distribution),又称为常态分布或高斯分布,通常记作,是非常重要的
概率分布,在
统计学领域具有重要影响。正态
随机变量的概率密度函数定义为,式中,是的数学期望,是的
方差;当参数,时,即时,则称服从标准正态分布,相应的概率密度函数记为。
正态分布的概念最早由
法国数学家
亚伯拉罕·棣莫弗(A. D. Moivre)于1733年提出,但他没有从
统计学的角度考虑正态分布的意义并将其用在误差分析中。在其之后,
高斯(C. F. Gauss)率先提出了“正态误差”的理论,并和
皮埃尔-西蒙·拉普拉斯(P-S.
皮埃尔-西蒙·拉普拉斯)一起研究了正态分布的性质。
正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。正态分布作为连续分布有着良好的
统计学性质,有概率密度、累积分布、矩母和特征函数表达式,有期望(均值)、
方差、
偏度和
峰度等数字特征存在。
中心极限定理指出,在特定条件下,如果是独立分布的
随机变量,它们具有相同的分布,且有有限的均值和方差,则这些样本的平均值也是一个随机变量,其分布随着样本数量的增加而收敛于正态分布。因此,许多与独立过程总和有关的
物理量,例如
测量误差,通常可被近似为正态分布。
自然界和社会中许多现象或变量都呈现出接近正态分布的特征,例如考试成绩、身高等。正态分布是统计分析和
概率论中的重要理论基础,适用范围广泛,可用于
质量控制、估计变量的频数范围和制定医学参考值范围等。
发展历程
起源
正态分布的概念最早由
法国数学家亚伯拉罕·路易·法尔特·棣莫弗(A. D. Moivre)于1733年提出,他运用正态分布的近似性质,计算了与抛硬币试验中的随机事件相关的概率。当时,正态分布被称为指数钟形曲线,并作为
二项分布当的近似分布,但
亚伯拉罕·棣莫弗没有从
统计学的角度考虑正态分布的意义并将其用在误差分析中。
许多天文学家开始了寻找误差分布曲线的尝试,其中,1755年,
英国天文学家托马斯·
乔治·盖洛德·辛普森(T. Simpson)率先走出了有意义的一步,进行了关于误差理论的工作,但辛普森的工作没有涉及一般误差概率理论,而是在误差满足某种特定的分布的前提下,专注于计算平均误差的分布,从而证明了在某种概率意义下,平均误差小于个别误差,首次从
概率论角度严格证实了算术平均的优越性。
持续发展
直到1809年,
德国数学家卡尔·弗里德里希·高斯(C. F. Gauss)提出了“正态误差”的理论,正态分布才展现了其应用价值,被广泛认可为一种
概率分布,此后,正态分布也称为高斯分布。1823年,
高斯出版了他的专著《Theoria combinationis observationum erroribus minimis obnoxiae》,在这本书中,他引入了一些重要的统计概念,包括
最小二乘法、最大似然法等,并且在其中对正态分布进行了深入研究。
尽管
高斯最早提出“正态误差”理论,但
皮埃尔-西蒙·拉普拉斯也做出了显著的贡献。1774年,他首次探讨了合并多个观测值的问题,并导出了
拉普拉斯分布,1782年,他首次计算了积分的值。拉普拉斯在1810年发表的论文中,论述了从包含高次项的公式的近似估计方法中导出关于减少误差的
中心极限定理,证明了中心极限
定理。随后,在1812年,拉普拉斯先后考虑多种分布情形,在《分析概率论》给出了
亚伯拉罕·棣莫弗—拉普拉斯中心极限定理的理论证明,他扩展了棣莫弗的理论,指出
二项分布可用正态分布逼近,突显了正态分布的理论重要性。
1808年,
爱尔兰裔
美国数学家罗伯特·艾德里安(R. Adrain)在所著论文《观测误差的概率研究》中,也为误差法则提出两项力证,几乎同时独立于
高斯发表了两个有见地但有缺陷的正态概率定律推导,但是他的工作并没有引起人们过多的关注,也没有影响到误差论和相关问题的发展。直到1871年,阿贝(Abbe)发表论文《最小二乘法的历史注释》,这才引起人们对
艾德里安关于误差理论工作的关注。
逐渐成熟
在19世纪中叶,
詹姆斯·麦克斯韦证明了正态分布不仅是一种方便的数学工具,而且还可能发生在自然现象中:“ 在某个方向上解析的速度介于和之间的粒子数量为:。19世纪中叶至末期,
比利时统计学家
朗伯·阿道夫·雅克·凯特勒(Quetelet)和
英国生物统计学家
弗朗西斯·高尔顿(F. Galton)等人在社会、经济、
遗传学等领域的工作将
概率论应用扩展到更广泛的范围。凯特勒在
自然科学和
社会科学中运用应用概率论(包括正态分布),成为首位将概率论引入这两个领域的人,而高尔顿则首创将统计方法引入生物学,设计了高尔顿板以研究随机现象和验证
中心极限定理。
自引入以来,正态分布已经有了许多不同的名称:误差定律、误差便利定律、
皮埃尔-西蒙·拉普拉斯第二定律、高斯定律等。其中,20世纪英国统计学家
卡尔·皮尔逊(K. Pearson)对正态分布的研究和推广起到了关键作用,他不仅使得正态分布这个名称变得流行,而且是第一个利用
标准差来量化和表述正态分布的人。后来,
罗纳德·费雪(R. A.
Fisher)于1915年在
皮尔森的基础上加入了位置参数,进一步发展了现代通用的正态分布表述形式,这些贡献帮助了正态分布在
统计学和相关领域的广泛应用。
定义
概率密度函数
一维
随机变量的概率密度函数(Probability Density
函数,PDF)定义为,式中,是随机变量的数学期望(均值),是的
方差,且,。显然,单变量情况下的概率密度函数由参数和就可以完全确定,为简单起见常将相应的概率密度函数简记为或,读作 服从,或服从正态分布。
当参数,时,即时,则称服从标准正态分布,相应的概率密度函数定义为。正态分布
随机变量概率密度函数都满足:,。对于一般形式的正态分布,有。
累积分布函数
累积分布函数(Cumulative Distribution
函数,CDF),又叫分布函数,是概率密度函数的积分。根据连续型
随机变量分布函数的定义,一般正态分布的分布函数为:,正态分布函数是一个增函数,而且有,,。
特别地,当参数,时,标准正态分布的分布函数为:,则有。
设,且为标准正态分布函数,则:,,。
矩母函数(矩生成函数)
对于
随机变量,若数学期望存在,则对任意
实数,其矩母函数(Moment Generating
函数,MGF,又称矩生成函数)定义为,记为。对于连续分布,其中的期望是;对于离散分布,其中的期望是。若
随机变量服从,按照矩母函数及其数学期望的定义公式,可以写出一般正态分布的矩母函数为,其中,标准正态分布的参数、,代入上式,得到标准正态分布的矩母函数为。
特征函数
为了定义特征函数,须先引进复随机变量的概念,设和都是
样本空间上的实随机变量,则称为复随机变量,其中。复
随机变量的数学期望为,若是(实)随机变量,则当
实数取定时,为复随机变量。
因此,设是随机变量,则称实变量的复值函数为随机变量的特征函数,或称为相应分布的特征函数(Characteristic
函数)。
若随机变量服从,按照特征函数定义公式,则一般正态分布的特征函数为,其中,标准正态分布的参数、,代入上式,得到标准正态分布的特征函数为。
数字特征
均值
正态分布概率密度函数是一条对称的钟形曲线,中间高,两边低,曲线位于轴的上方,且以直线为对称轴,左右完全对称,随着的增大与减小,曲线无限趋于轴,正态分布的期望、均值、
中位数和众数相同,均等于。
均值代表正态分布的
集中趋势位置,通常被称为位置参数。当取值为均数时,位于曲线的单峰的最高点,即此时的值最大,这表明在附近的概率密度最大;当的取值离开均数时,曲线的高度降低,即概率密度减小,且值越远离均数,曲线的高度就越低,即概率密度越小。
标准差
标准差是描述正态分布数据分布离散程度的参数,通常被称为尺度参数。越大,数据分布越分散,曲线越扁平;越小,数据分布越集中,曲线越瘦高。固定的值不变,改变的值,则曲线延轴平移,但其形状不改变;固定的值不变,改变的值,则曲线的位置不变,但随着的减小,曲线变得陡峭。
偏度
偏度是用来衡量统计数据分布的偏斜方向和程度的指标,也称偏态、偏态系数,是统计数据分布
非对称程度的数字特征。偏度描述了
概率分布密度曲线相对于平均值的不对称性,具体而言,偏度反映了密度函数曲线尾部的相对长度,偏度的计算公式为:。
当偏度为0时,表示数据分布完全对称,左右尾部长度
相等,例如正态分布的偏度即为0。当数据分布呈现负偏时,意味着数据的左侧尾部较长,即较多的数据值偏离了平均值向右侧集中;而正偏则表示数据的右侧尾部较长,即较多的数据值偏离了平均值向左侧集中。
峰度
峰度是描述数据分布形态陡缓程度的
统计量,峰度越大,数据分布越陡峭,尾部越厚;峰度越小,数据分布越平滑,
偏度的计算公式为:。
正态分布的峰度为3,很多情况下,为方便计算,一般将正态分布的峰度值减去3,这样使得其峰度变为0,更方便进行比较。当数据的峰度为0时,表示数据分布的陡缓程度与正态分布相同;峰度大于0,表示数据分布比正态分布更陡峭,而峰度小于0,表示数据分布比正态分布更平坦;
峰度的
绝对值越大,表示数据分布形态与正态分布的差异越大。
相关性质
导数
正态分布的
导数即对其概率密度函数求导,具体可表示为。令,解得;当时,,函数递增;当,函数递减。因此,这个导数值在正态分布的峰值处为0,向两侧逐渐变小,即正态分布的概率密度函数是单峰曲线。
矩和累积量
原点矩和中心矩
设为
随机变量,为
常数,为正整数,则量(若存在)称为分布关于的阶矩。若,则量称为分布的阶(原点)矩,记为;若,则量称为分布的阶中心矩,记为。
中心矩与原点矩之间有如下简单的关系:。其中,,故前4阶
中心矩可分别用原点矩表示:;;;。
对于正态分布,前四个矩具有特殊的性质。第一阶原点矩是正态分布的均值:;第二阶
中心矩是正态分布的
方差:;第三阶中心矩是正态分布的
偏度:;第四阶中心矩是正态分布的
峰度:。
累积量
如果需要计算中心矩,还得根据原点矩化为中心矩,但矩的阶数愈高,计算工作量愈大。因此引入累积量的概念,利用累积量来计算中心矩,定义为各阶累积量,规定。
令特征函数的
自然对数等于,设,联立化简可得累积量与矩的关系为:;;;。累积量的计算公式也可定义为。
最大熵
随机变量的概率密度函数为,当期望和
方差已知,正态分布是所有均值和存在且
协方差是的分布中熵最大的分布。
标准偏差
定义
在实验中,如果已经排除了系统因素的影响,而且在相同条件下对某个量进行了次独立测量,那么所得的测量值的算术平均值即为:,其中,每个测量值与
真值之差为,将各测量值的值相加并除以得到:。根据正态分布概率密度分布的对称性,当时,即,所以算术均值是
真值的最佳估计值。测量值与该测量列的算术平均值之间的偏差为“残差”。由于各残差的平均值为零,所以各残差的平均值不能反映测量值与真值之差的大小,为此引入
标准差的概念。标准偏差也称为均方根偏差,定义为:,称为
贝塞尔公式。
由于在实际情况下真值无法知道且测量次数有限,一般用残差代替可以证明,在测量次数足够多时,标准偏差的估计值为,称为标准偏差估计值的贝塞尔公式,对平均值的
标准差估计值为。
应用(3σ原则)
在正态分布中,代表均值,代表
标准差。对于
随机变量,落入区间,,的概率分别为:
这个现象表明,服从正态分布的
随机变量的取值基本上落在区间内,几乎全部落在区间内,此特征又称为正态分布的原则。
无限可分性
当多个随机变量相互独立且服从正态分布时,它们的
线性组合仍然服从正态分布。具体来说,如果有一组
独立同分布的随机变量,均服从正态分布,则对于任意
实数,线性组合也服从正态分布 ,其在加法和
标量乘法下保持不变。例如与 是统计独立的正态
随机变量,那么它们的和也满足正态分布;它们的差也满足正态分布,与两者是相互独立的,与的
方差相等。
实例
中心极限定理
与正态分布的联系
中心极限定理指出,当一个量受到相互独立的随机因素的综合影响而每个随机因素所起的作用不大时,该量的分布一般服从或近似服从正态分布。这说明,如果从任意分布的总体中抽取足够多的样本,
样本均值会渐近地接近总体均值,即从任意分布的总体中抽取均值的样本分布渐近地接近正态分布。
中心极限定理是
统计学中的重要定理,对于任何分布,只要其存在期望和
方差,则当足够大时,样本均值近似服从期望为、方差为的正态分布。
中心极限定理与正态分布密切相关,它是统计学中处理大样本的一个重要工具,说明了正态分布的重要性。其中,常见的中心极限定理有列维-林德伯格(Levy-Lindberg)中心极限定理和棣莫弗-拉普拉斯(De Moivre-
皮埃尔-西蒙·拉普拉斯)中心极限定理等。
列维-林德伯格中心极限定理
设一组
随机变量相互独立且同分布,若,,,则对于任意
实数,有,其中是标准正态分布的分布函数,该定理是
独立同分布情形下的
中心极限定理,也称为列维-林德伯格(Levy-Lindberg)中心极限定理,这个
定理的直观意义是,当足够大时,可以近似地认为。
棣莫弗-拉普拉斯中心极限定理
设
随机变量是一个独立同分布的随机变量序列,且每个都服从分布,则对任意一个
实数,总有,该
定理被称为
亚伯拉罕·棣莫弗皮埃尔-西蒙·拉普拉斯中心极限定理(De Moivre-Laplace)。由
二项分布的
可加性知道,,因此概率的值理论上是可以精确算出的,但是,实际问题中当较大时,计算并不方便。
由泊松定理和
亚伯拉罕·棣莫弗皮埃尔-西蒙·拉普拉斯中心极限定理推得,如果
随机变量,那么当较大时,可以利用正态分布近似求得概率。另外,对,,仍用上面的算式来近似,因为当较大时,、的值很小,可以忽略不计;当时,认为;当时,认为。
参数估计
概述
参数估计是
数理统计学重要内容之一,在实际问题中,总体的数字特征或分布通常是未知的。即使知道总体的分布形式,例如正态分布或泊松分布,其中的参数也是未知的。因此,需要通过样本来估计总体的分布函数、分布中的未知参数或数字特征,这样就产生了统计估计问题。
参数估计的参数是指总体分布中的未知参数,例如,在正态分布中、未知,是需要估计的参数。如果已知总体的分布函数为其中参数(一维或多维)是未知的,由抽取的随机样本所提供的信息,建立样本的函数(即
统计量)来对未知参数作出估计并讨论估计量“最佳”准则的统计问题,称为参数估计。从估计形式看,可分为
点估计与区间估计两大类,其常用的方法有
矩估计、最小二乘估计和极大似然法等。
统计学概念
统计量
统计量是只与样本有关、不含任何未知参数的函数,设为取自总体的一个样本,样本的函数为,若中不直接包含总体分布中的任何未知参数,则称为统计量。
在
抽样前,
统计量是一个
随机变量,在抽样后得到的是一次样本观测值,这些是已经测得的,可以直接用于计算的数字,代入构造好的统计量中,则所得统计量的观察值是统计量的一次观测值,它是一个可以由数据算得的
实数。
样本均值与方差
设为取自总体的一个样本,称为样本均值,它反映了样本各分量取值的平均状态,是对样本位置特征的一个刻画,可作为总体均值的一个近似值;为样本
方差,它反映了样本中各分量取值的离散程度,可用来作为总体方差的一个近似值;为样本
标准差。它们的观测值分别为:,;。
点估计
矩估计
设
随机变量,则总体的一阶、二阶原点矩,有,。样本的一阶、二阶原点矩,有,,令,,联立
方程组,可得均值和
方差的
矩估计,分别为:,。
最大似然估计
由上述正态分布概率密度函数,可得,正态分布的似然函数为,两边取
对数,则有,分别和求导,获得似然
方程组,解之,可求得和的估计值为:,。
最小二乘估计
由正态分布函数定义可知,,其中,是正态分布的均值,是正态分布的
标准差,是标准正态分布的分布函数。由于标准正态分布函数是严格单调上升的,故其
反函数存在,因此,上式可以表示为线性
方程形式:。对于一组和的数据,利用
最小二乘法计算该线性方程的回归系数和截距,即可求得和的估计值。
贝叶斯估计
贝叶斯分析(Bayes分析)是一种基于贝叶斯理论来预测事件发生概率的手法,用于估计正态分布的参数(通常是均值和
方差)并结合
先验概率信息进行推断。正态分布的贝叶斯分析中,使用
贝叶斯定理来更新对参数的先验信念,并获得后验分布。假设有一组观测数据 ,通过这些观测数据来推断正态分布的参数和 。在贝叶斯分析中,引入先验分布来表示对参数的初始信念,通常选择共轭先验分布作为正态分布的先验,对于正态分布,共轭先验是具有正态形式的分布。
具体步骤如下:①选择先验分布:选择正态分布作为参数和的共轭先验。先验分布可以是均值为,
方差为的正态分布。②计算似然函数:似然函数表示给定参数和时,观测数据出现的概率。对于正态分布,似然函数可以通过计算观测数据的联合概率密度函数(或取
对数)得到。③计算后验分布:根据
贝叶斯定理,我们可以通过将先验分布与似然函数相乘,并进行归一化,得到参数的后验分布。后验分布表示了在给定观测数据的条件下,对参数的最新信念。④参数推断:通过后验分布,可以计算参数的点估计值,如后验均值、后验
中位数等。
区间估计
正态分布的区间估计用于估计总体参数(如均值或
标准差)的范围,在正态分布假设下,可以使用样本数据来构建置信区间,该区间给出了总体参数的估计范围。设为来自总体的样本,为未知参数,设有两个
统计量和,若对给定的有,则称区间为的置信区间,和分别称为置信下限和置信上限,称为置信水平,也称置信概率或置信度。通常将“的置信水平为的置信区间”简称为“的置信区间”。
例如对于总体均值的区间估计,常见的方法是使用
样本均值和标准误差来构建置信区间。假设希望构建一个95%的置信区间,那么通常会使用标准正态分布的临界值来确定区间的边界。通过构造
抽样分布,并且抽样分布符合正态分布,查找标准正态概率表可以知道,任何整体分布
随机变量都有95%的值在总体均值附近1.96个
标准差内,即有95%的概率可以相信区间内包含总体均值,区间称为95%的置信区间。将此区间扩展为如下更具有普遍意义的公式:,式中是显著性水平,是标准整态
概率分布上侧面积为时的值,下表中展示了常用的置信水平下的值。
正态分布校验
正态分布校验是一种用于确定数据是否符合正态分布的统计方法。正态分布校验的目的是检查样本数据是否具有正态(高斯)分布的特征,这在许多统计分析和假设检验中是一个重要的前提。以下是一些常见的正态分布校验方法:
图示法
直方图法
直方图法是一用于初步判断数据分布类型的统计方法,步骤包括排列数据,分组计算频率,创建直方图表示数据分布,如果数据呈现出两侧对称或接近对称的形态,尤其是直方图的中点连线对称,那么数据可能符合正态分布。同理,
对数频率分布直方图也可用于
对数正态分布的初步判断,但该方法只提供初步分布类型判断。
P-P图和Q-Q图法
P-P(Percent-Percent)正态概率图是根据变量分布累积比和正态分布累积比生成的图形,如果数据是正态分布,被检验数据基本成一条直线。Q-Q(Quantile-Quantile)正态概率图则反映了变量分布的分位数对正态分布的分位数,如果数据点在Q-Q图上近似地沿着一条直线排列,那么数据可能符合正态分布。如果数据点偏离直线,可能表明数据不符合正态分布。两者有很大的相似性,都可以在对原有数据进行
自然对数转换、指数转换等的基础上来产生正态概率图。
正态性检验
Shapiro-Wilk检验
Shapiro-Wilk检验(夏皮罗-威尔克检验)是一种用于判断数据样本是否符合正态分布的统计方法,它的基本思想是检验数据与正态分布的拟合程度。首先给出假设,零假设(H0):数据样本来自正态分布,备择假设(H1):数据样本不来自正态分布;然后使用一个
统计量,该统计量基于样本数据的排序值和回归系数来评估数据是否符合正态分布;根据样本数据的排序值和回归系数,计算Shapiro-Wilk统计量,选择显著性水平(可查表获得对应于值的),以确定是否拒绝零假设。
根据和,查表得到的临界值,如果统计量小于等于,则拒绝0假设,表示数据不符合正态分布,否则反之。Shapiro-Wilk检验在时可以使用,是基于次序
统计量对它们
期望值的回归,它是一个完全样本的
方差分析形式的检验,检验统计量为样本次序统计量
线性组合的平方与通常的方差
估计量的比值。
Kolmogorov-Smirnov检验
安德雷·柯尔莫哥洛夫Smirnov检验法(科尔莫戈洛夫-斯米尔诺夫检验),简称K-S检验法,用来检验样本来自同一个总体的假设,可以用于样本容量的条件下检验分布是否服从正态或
对数正态分布,该方法是通过样本的
经验分布函数和理论分布函数的比较作拟合优度检验。
其基本思路是:若对每一个值来说,和拟和程度高,则两者差异就小,就有理由认为样本数据来自具有理论分布的总体。因此,可以利用样本各观察值的经验分布函数值和假设下的正态分布函数值之间最大绝对偏差值作为检验
统计量。在求出最大绝对偏差值后,再根据给定的显著水平及样本容量,查单样本K-S检验统计量表中临界值。 若,则差异不显著,可以认为总体的分布符合假设分布,即属正态分布。
偏峰度检验
定义偏峰度检验用到的
偏度,峰度,其中为三阶矩,为四阶矩,为
标准差,则正态分布的偏度为0,峰度为0。如果样本所代表的分布的偏度不等于0或峰度不等于0,就不是正态分布,因此,可以通过样本偏度和峰度是否接近0来判断数据是否服从正态分布。
从总体为的分布中,抽取容量为的样本:,则可由样本矩得到总体
偏度和
峰度的估计:三阶样本中心距,四阶样本中心距,将其代入偏度和峰度的计算公式,然后观察这些计算出的值是否接近0,从而判断样本数据是否符合正态分布,接近0的偏度值表示数据分布接近对称,而接近0的峰度值表示数据分布的峰形适中。
概率密度计算方法
正态分布分位数
标准正态分布的左侧
分位数指的是
随机变量小于某个数的概率为,如果服从标准正态分布,则,,如图所示。同理,标准正态分布的右侧分位数指的是随机变量大于某个数的概率为,如果服从标准正态分布,则,。
因此可知,一般情况下对任何介于之间的
实数,标准正态分布的
分位数把密度曲线下的面积分为两块,左侧为,右侧为,称之为分位数。这个分位数也可以通过标准正态分布表求得,也可直接从标准正态分布的分位数表查得。
标准正态分布表
标准正态分布的分布函数为,,标准正态分布表如下。
常用定理
证明:对于随机变量,有
设,则上式可化为
即
定理2:设,当时,,特别地,。这个定理说明服从正态分布的
随机变量线性函数仍然服从正态分布。
当时
综上:
相关分布
正态分布,也称为高斯分布,是
统计学中最常见的连续
概率分布之一,正态分布及其相关分布在许多领域中都有广泛的应用,与正态分布相关的分布包括:
卡方分布、t分布、F分布、
瑞利分布、
柯西分布和
对数正态分布等。
卡方分布是一种特殊类型的概率分布,它是通过对个
独立同分布的标准正态
随机变量的平方和进行定义的,称其为服从自由度为的分布(卡方分布),记为。分布是由正态分布构造而成的一种新的分布,当自由度充分大时,分布近似于正态分布。
t分布是一种
概率分布,形状与正态分布类似,但其尾部更厚,当样本量较小或总体
方差未知时,均值的
抽样分布不再服从正态分布,t分布可以代替正态分布进行近似计算。t分布的概率密度函数图像关于直线对称,自由度越大时,其形状越接近标准正态分布。
两个来自正态分布总体的样本的方差比值,称为F值,F分布是在零假设(总体呈正态分布,且两个样本均为随机样本)成立的情况下F值的分布,通常用于比较两个总体方差是否显著不同。F分布的概率密度曲线呈正
偏度,其形状取决于两个样本的自由度,自由度越大,越接近正态分布曲线的形状。
除上述三大常用相关分布外,还有
瑞利分布、
柯西分布和
对数正态分布等被应用于某些特定领域。瑞利分布是一种连续性
概率分布,是区间上单峰不对称的曲线,常用于描述低能
中子共振间距的分布或雷达
杂波的幅度分布。柯西分布,也被称为洛伦兹分布,其形状类似于钟形曲线,是一种具有肥尾的连续概率分布。柯西分布没有均值和
方差,可以用于描述受迫共振的
微分方程的解或在
光谱学中描述被共振或者其他机制加宽的
谱线形状。
随机变量的对数变换比原始值更容易服从正态分布,在这种情况下,随机变量称为
对数正态分布,常用于水文随机变量的数值变换,对数正态分布密度函数曲线是单峰的,且是
偏度的。
相关应用
质量检测控制
一般情况下,质量检测误差服从正态分布。根据正态分布的理论,正态曲线下区间内的面积为 95.45%,区间内的面积为99.73%。落在两区间外的观测值的概率不到5‰和3‰。所以一般以为中心线,为警戒线, 为控制线,根据以上的规定还可以绘制出
质量控制图。
估计变量的频数范围
根据正态分布曲线下的面积规律,可以估计变量值的频率或频数分布情况。除了常用的估计95%和99%的频数分布之外,统计学家编制了标准正态分布累积分布函数表,用以表示横轴范围从的面积。在应用时,首先将变量转化为标准正态变量,然后查阅分布函数表。由于正态分布是对称的,当大于0时,其面积可以通过计算获得。例如,区间的面积可以先计算的面积,然后用1减去该面积,即可得到的面积。这样,将变量值转换为值后,就能表示从对应的曲线范围内值的分布比例。
制定医学参考值范围
医学研究中常需要确定医学参考值范围,这是为了确定某项生理指标的正常波动范围。医学参考值范围指的是特定人群(排除了可能受到疾病和其他相关因素影响的人群)的生理、生化指标以及组织
代谢产物的波动范围。通常情况下,我们会选择该人群中某项医学指标的95%范围作为医学参考值的界限。在使用百分位数法时,双侧95%的医学参考值范围通常表示为,适用于非正态分布的数据。
而对于正态分布的数据,可以根据正态分布的规律来处理医学参考值范围的估计。正态分布法的基本原理是利用正态分布曲线下的面积分布规律来估计样本数据的频数分布,从而推断医学参考值的范围。正态分布的数据在均值附近的95%范围内,通常可以使用以下方式估计双侧医学参考值范围:双侧医学参考值范围 = 均值 ± 1.96倍
标准差。这一估计方法基于正态分布的性质,其中数据在距离均值1.96倍标准差的范围内概率约为95%。因此,对于正态分布的数据,我们可以使用上述公式来估计医学参考值范围。