方差
衡量源数据和期望值差的度量值
方差(英文:variance)是随机变量的重要数字特征之一,是反映随机变量的取值与其数学期望偏离程度的量,方差越小,随机变量的取值越集中;方差越大,随机变量的取值越分散。
1918年,英国的罗纳德·费希尔(R.A.Fisher,1890~1962)在论文《孟德尔遗传假定下的亲缘之间的相关性》(英文:The Correlation Between Relatives on the Supposition of Mendelian Inheritance)中提出了新的统计学分析方法,即方差分析法(analysis of variance),方差一词作为数学用语被首次提出。
方差具有几个基本性质,如常数的方差为零等。几种常见的随机变量,如离散型的二项分布、泊松分布,连续型的正态分布等,都可计算出相应的方差。与方差相关的定理切比雪夫总和不等式,它给出了大偏差发生概率的上界,在概率论中应用广泛。在统计学中,方差分析法通过构造统计模型,利用假设检验的方法进行分析,可得到一些重要的结论,并应用于其他领域,例如:在金融领域,方差用于衡量股票、债券等金融资产的风险高低;在机械制造实际零件加工中,方差用于分析质量因素对产品的影响;在中医临床研究、环境监测自然科学领域中,方差的分析方法仍然可以发挥重要的作用。
定义
方差是随机变量的重要数字特征之一,是反映随机变量的取值与其数学期望偏离程度的量。方差因随机变量类型的不同有以下定义。
离散型
设为离散型随机变量,且数学期望存在,
若,则称为的方差。
连续型
设为连续型随机变量,其密度函数为,且数学期望为存在,
则称为的方差。
综上所述,一般地,若随机变量的数学期望为,则数值称为的方差。
历史
方差是在概率论和统计中对随机变量或一组数据离散程度的度量,统计作为一种社会实践活动,已有四五千年的历史。20世纪初至今为现代统计学时期,主要特征是描述统计学已转向推断统计学,英国罗纳德·费雪提出的极大似然估计量概念成为估计参数的重要方法,并于1918年在论文《孟德尔遗传假定下的亲缘之间的相关性》(英文:The Correlation Between Relatives on the Supposition of Mendelian Inheritance)中提出了新的统计学分析方法,即方差分析法(analysis of variance),方差一词作为数学用语被首次提出。
性质
方差具有如下性质:
几种常见分布的方差
离散型
二项分布
设随机变量的分布列,即服从,称为二项分布,记作,由方差的定义可计算得的方差为:
因为伯努利分布是时的二项分布,所以两点分布的方差为
泊松分布
随机变量的分布列为泊松分布,其概率分布列为
其中参数,记为,由方差的定义可计算得的方差为:
超几何分布
设随机变量的分布列为超几何分布,记为,其概率分布列为
其中且均为正整数。
由方差的定义可计算得的方差为:
连续型
正态分布
随机变量的密度函数则称服从正态分布,称为正态变量,记作,其中参数
在正态分布中,其中一个参数就是的方差。
均匀分布
随机变量的密度函数为,则称服从区间上的均匀分布,记作,由方差的定义可计算得的方差为:
指数分布
随机变量的密度函数为,则称服从指数分布,记作,其中,由方差的定义可计算得的方差为:
相关概念
数学期望
数学期望(mathematical expectation)简称期望,亦称平均值,随机变量的重要数字特征之一,是反映随机变量取值的平均水平的量。随机变量的数学期望常用或表示。
离散型
设为一离散型随机变量,它取值对应的概率为如果级数绝对收敛,则把它称为的数学期望,记为
连续型
设为具有密度函数的连续型随机变量,当积分绝对收敛时,可称它为的数学期望,即
标准差
标准差(Standard 离差)是一种描述数据的离散程度统计量
一般地,若随机变量的数学期望为,无论随机变量是离散型或连续型,若方差存在,则称方差的算术根为的标准差,或均方差、根方差。
相关定理
切比雪夫总和不等式描述了随机变量与其期望值、方差值之间的关系,马尔可夫不等式为切比雪夫不等式的一般情况。大数定律描述了当随机试验次数很大时,概率所呈现的概率性质,也和方差这个数字特征有关。
切比雪夫不等式
设连续随机变量的数学期望和方差都存在,则对任意常数,有
,或
证明:设是一个连续随机变量,其密度函数为,记,有
可知(1)式对连续随机变量成立,对于离散随机变量亦可类似进行证明。
概率论中,事件称为大偏差,其概率称为大偏差发生概率,切比雪夫总和不等式给出大偏差发生概率的上界,这个上界与方差成正比,方差越大上界也越大。
切比雪夫大数定律
在一个相互独立的随机变量序列中,若存在,且
则对任意皆有称服从切比雪夫大数定律。
相关计算
基本步骤
方差的基本计算步骤主要分为以下五步:
示例
例1 某人有一笔资金,可投入3个项目:房产,地产和商业,其收益和市场状态有关。若把未来市场划分为好、中、差3个等级,且每个等级发生的概率分别为,根据市场调研的情况得到了不同等级状态下各个项目的年收益(单位:万元)。如下表1所示,该投资者应该怎样投资。
解:先求出的数学期望。
根据数学期望可知,投资房产的平均年收益最大,可选择房产,但投资也要考虑风险,再求出的方差。
方差越大,收益波动越大,从而风险越大。从方差看,投资房产的风险比投资地产的风险大,因此将收益与风险综合权衡,该投资者应该选择投资地产更好。
相关推广
方差分析是通过对数据所反映的研究对象某一特征的数量变动进行分解,并在一定的显著水平下对其进行显著性检验,以判断数量变动属于随机因素引起的随机变动,还是受控因素引起系统变动的方法和过程。按因子(或因素)的多少将方差分析分为:单因素方差分析和双因素方差分析。单因子方差分析是只考虑一个分析型自变量对数值型因变量影响的分析方法。
单因子模型
在单因子试验中,记因子为,设其有个水平,记为在每一水平下考察的指标可以看成一个总体,现有个水平,故有个总体,假定:
(1)每一总体均为正态总体,记为
(2)各总体的方差相同,记为
(3)从每一总体中抽取的样本是相互独立的,即所有的试验结果都相互独立。
这三个假定都可以用统计方法进行验证。试验结果的独立性可由随机化实现,即所有试验按随机次序进行。
比较各水平下的均值是否相同,即要对如下的一个假设进行检验:
其备择假设为不全相等
如果成立,因子的个水平均值相同,称因子的个水平间没有显著差异,简称因子不显著;反之,当不成立时,因子的个水平均值不全相同,称因子的不同水平间有显著差异,简称因子显著。
检验方法
若成立,则定义的检验统计量服从自由度为和的分布,考虑到统计量的值越大越倾向于拒绝原假设,故该检验的拒绝域为
通常把分析计算过程列成表格,如下:
对给定的,可作如下判断:
相关应用
金融学
在金融领域,方差用于衡量股票、债券等金融资产的风险高低。股票投资收益是一个随机变量,期望收益就是随机变量的均值。在股票期望收益相差不大的条件下,用收益的方差来度量它们的投资风险高低,方差越大风险越高,方差越小风险越低。
工程学
在机械制造实际零件加工中,很多的质量因素都会影响成品,如材料、杂质含量、工艺方法、热处理等,每一个因素不同程度的影响着最终质量。通过方差分析来明确各因素的影响作用,先要选出样本进行多次试验,在根据试验结果分析判别每个因素对产品的影响程度。
医学
在中医临床研究中,通常会对主要的结果指标实施多次的测量,处理多次测量的数据会选择重复测量资料方差分析,目的是推断处理因素、时间因素、两因素交互对于受试个体的作用效果,分析观察值的发展趋势和相关影响因子。重复测量资料的方差分析是研究中缩小个体差异所致误差的一种有效方法,检验效能较高,对于有限的受试个体进行多次测量并收集足够的数据,节省了样本含量,在很大程度上减少人力、物力、财力的消耗。
环境监测
空气环境的好坏是影响环境质量的重要因素之一。它是由空气中的悬浮颗粒物浓度来度量的,通过实时环境监测对当前的空气质量指数,了解空气污染物的主要组成,再分析对各影响空气质量的因素(时间、监测点),从而减轻空气污染问题。以空气质量数据的特征构建方差检验模型,通过对时间与空间两个影响因素进行方差分析检验,可以了解空气污染物对不同地区环境质量的影响。
参考资料
目录
概述
定义
离散型
连续型
历史
性质
几种常见分布的方差
离散型
二项分布
泊松分布
超几何分布
连续型
正态分布
均匀分布
指数分布
相关概念
数学期望
离散型
连续型
标准差
相关定理
切比雪夫不等式
切比雪夫大数定律
相关计算
基本步骤
示例
相关推广
单因子模型
检验方法
相关应用
金融学
工程学
医学
环境监测
参考资料