分位数
按大小顺序排列若干等份的分界点上的数值
分位数(英文:quantile),亦称分位点、临界值,其定义为:将一组按大小顺序排列的数值分成若干等份,处于各等份分界点上的数值,称为分位数。
统计作为一种社会实践活动有着悠久的历史,早在公元前两千多年,人们就已经对人口数量进行过统计和记载。而统计学作为一门统计实践活动的经验和理论的学科,已有了三百多年的发展历史。1809年,德国约翰·卡尔·弗里德里希·高斯(C.F.Gauss)在著作《天体沿圆锥曲线的绕日运动理论》中阐述了预测天体轨道的方法,首次发表了最小二乘法。1889年,弗朗西斯·高尔顿(Francis Galton)在著作《自然的遗传》中提出了相关性概念,明确给出了“生物统计学”名词以及中位数、分位数的概念。1978年,美国计量经济学家罗杰·克昂克(Roger Koenker)和巴赛特(Bassett GilbertJr)提出了分位数回归的思想,该方法对最小二乘回归做了改进。进入21世纪,分位数回归分析有了进一步的发展。2012年,梁乌娜-阿尔瓦雷兹(Uǹa-Álvarezz)等人在相依假设下,基于经验似然方法,构造了条件分位数的置信区间。2017年,安德里亚娜(Andriyana)和伊雷娜·吉贝尔斯(Irène Gijbels)给出条件分位数函数以及异方差函数的估计,同时用模拟研究进行验证,进一步推广了分位数的相关理论。
分位数具有多种类型,如中位数、四分位数等,它与平均数有着密切的联系,其中,平均数与中位数的差值不会超过一个标准差。分位数计算是大数据集和数据流上经常使用的一种统计方法,在常见的概率分布和统计分布中,如正态分布、卡方分布等也会涉及到分位数计算。此外,该概念在现实世界中具有广泛的应用价值,如在金融学中,基于分位数预测回归模型的股票市场风险方法,能更加全面地对股票市场风险的影响因素进行分析,有助于防范与控制市场风险。
定义
分位数将一组按大小顺序排列的数值分成若干等份,处于各等份分界点上的数值,即为分位数。它可用于说明资料的分布情况和测定各数值间的差异程度。
数学定义:设连续型随机变量的分布函数为,密度函数为。对任意的,称满足条件
的为此分布的分位数,又称下侧分位数。同理,称满足条件
的为此分布的上侧分位数。上侧分位数与分位数是可以相互转换的,其转换公式为
,。
分位数是把密度函数下的面积分为两块,左侧面积恰好为,如图;上侧分位数也是把密度函数下的面积分为两块,但右侧面积恰好为,如图。
简史
早期研究
统计作为一种社会实践活动有着悠久的历史,早在公元前两千多年,人们就已经对人口数量进行过统计和记载。统计一词的英文为统计学,跟state(国家)一词来自同一词源。统计学作为一门统计实践活动的经验和理论的学科,也有了三百多年的发展历史。1809年,德国约翰·卡尔·弗里德里希·高斯(C.F.Gauss)在著作《天体沿圆锥曲线的绕日运动理论》中阐述了预测天体轨道的方法,首次发表了最小二乘法,并于1822年指出该方法是回归分析中的最优方法。1889年,英国统计学家弗朗西斯·高尔顿(Francis Galton)在其著作《自然的遗传》中提出了相关性概念,构造了回归分析方法,并明确给出了“生物统计学”的名词以及中位数、分位数等概念。
后续发展
1978年,美国计量经济学家罗杰·克昂克(Roger Koenker)和巴赛特(Bassett Gilbert Jr)提出了分位数回归的思想,它依据因变量的条件分位数对自变量进行回归,得到了所有分位数下的回归模型。相比普通最小二乘回归,分位数回归更能精确地描述自变量对于因变量的变化范围以及条件分布形状的影响。1993年,格勒(Gürler)等人在原始样本独立的情形下,获得了分位数函数的表示形式及其渐近正态性。21世纪以来,分位数回归分析有了进一步的发展。2012年,梁乌娜-阿尔瓦雷兹(Uǹa-Álvarezz)等人在相依假设下,基于经验似然方法,构造了条件分位数的置信区间。2015年,王江峰等人在左截断数据下,利用局部多项式方法,研究了误差具有异方差结构的非参数回归模型,构造了回归函数的复合分位数回归估计,并得到了该估计的渐近正态性结果。2017年,安德里亚娜(Andriyana)和伊雷娜·吉贝尔斯(Irène Gijbels)在误差是异方差结构下研究了变系数模型的分位数回归问题,给出条件分位数函数以及异方差函数的估计,同时用模拟研究进行验证,进一步推广了分位数的相关理论。
常见类型
中位数
定义:中位数是位置平均数,若将变量值按大小顺序排列,处于中间位置的变量值即为中位数。中位数把全部的变量值分成两部分:一半的变量值比它大,一半的变量值比它小。中位数是位置平均数,不受极端数值的影响,在有个别极端数值存在的数列中,中位数的代表性比算术平均数的代表性强。
设连续型随机变量的分布函数为,密度函数为,称时的分位数为次分布的中位数,即满足
且中位数的位置常在分布的中部。
计算公式:中位数的计算公式为:当为奇数时,;当为偶数时,。
中位数的渐进分布:在总体为连续型且概率密度为对称的情形,常用样本中位数来估计总体均值:
由于正态总体的样本中位数渐进地服从正态分布,因而对于正态总体,用来估计是适合的。但是,当总体为离散型时,样本中位数不服从正态分布。
四分位数
定义:在统计实践过程中,经常需要将一组数据分成等份,把这些等份点上的数值称为分位数。若分为个、个、个相等部分,则分位点上的数就相应称为四分位数、十分位数、十六分位数,那么,要将整个数据分成等份,只需要个分点。四分位数也可以理解成将一组数据经过排序以后处于位置上的数值,这三个数值从小到大依次称为第一四分位数、第二四分位数与第三四分位数或者下四分位数、中四分位数、上四分位数,且中四分位数就是中位数。
计算公式:将数据排序后,位置,位置。
举例 某年某省个地市人均GDP(元)从小到大排列如下,要求计算四分位数。
解:下四分位数的位置;
中位数的位置;
上四分位数的位置。
计算结果表明,下四分位数为元,中位数为元,上四分位数为元。
百分位数
定义:百分位数又称百分位分数,是一种相对地位量数,它是次数分布中的一个点。把一个次数分布排序后,分为个单位,百分位数就是次数分布中相对于某个特定百分点的原始分数,它表明在次数分布中特定个案百分比低于该分数。百分位数用加下标(特定百分点)表示。
计算公式:,,其中,指第百分位数;指所在组的组实下限;指所在组的组实上限;指所在组的次数;指小于的累积次数;指大于的累积次数。
常用结果
正态分布
定义:若随机变量的密度函数为
其中,与为常数,则称服从正态分布,记为。特别地,当时,称服从标准正态分布,记为。
标准正态分布的分位数:由于标准正态分布函数
不含参数,又是严增函数,故其分位数可由其反函数表示,且标准正态分布的分位数可由分位数表查得。
一般正态分布的分位数:若,则,故一般正态分布的分位数是下列方程:
的解,其解为
其中为标准正态分布的分位数。
卡方分布
定义:若个相互独立的随机变量点均服从标准正态分布,则称服从參数(自由度)为的分布,记为。卡方分布的密度函数为
卡方分布的分位数:对于分布的分位数,应满足条件
当较小时,其值可通过查卡方分布分位数表得出;当时,有
于是,只要查正态分布表,就可得到分布分位数的近似值。
t分布
定义:设随机变量,且随机变量相互独立,则称随机变量
为服从自由度为的分布,记为。
分布的分位数:对自由度为的分布,用表示其分布的分位数,即
由于分布的概率密度函数图形关于轴对称,因此有。
F分布
定义:设随机变量相互独立,且,则称随机变量
为服从自由度为的分布,记作,其中为第一自由度,为第二自由度。由定义可知,若,则。
分布的分位数:对自由度为的分布,用表示其分布的分位数,即
由可得
相关算法
分位数计算是大数据集和数据流上经常使用的一种统计方法。设是按递增序排序的数据,使得是最小的观测值,而是最大的观测值。每个观测值与一个配对,指出大约的数据小于或等于,则是相应于的分位数。
NORMAL
算法 NORMAL 是一种单遍扫描的、联机的分位数近似算法,其时间和空间复杂度均线性于概要结构中桶的个数,而与数据流的长度无关。
基本思想:算法 NORMAL 可分为两个过程:
(1)基于规范数直方图 Nord-Histogram 的概要结构的构建与更新。
(2)Nord-Histogram 上的分位数计算。
在过程(1)中,令表示概构跨度,取决于内存容量的限制,其上下界分别表示为和。数据流元素的最大与最小值分别表示为和。为内的每个值创建一个。每当一个新的数据元素到达,计算出其相应的,同时更新其对应的规范桶,从而及时得到更新的 Nord-Histogram。过程(2)计算分位数值的时间复杂度为,而空间复杂度为。·综合过程(1)和过程(2),基于规范数直方图 Nord-Histogram 的分位数近似算法的时间和空间复杂度均为与数据流的长度无关,因而可以实现数据流的及时查询计算。
t-Digests
t-Digest 是一种用于近似计算大型数据集的算法,它通过对实值样本进行聚类,并保留每个聚类的均值和样本数来生成的。该聚类方法可以用来估计分位数相关的统计量。该算法将原始数据分成若干个区间,并为每个区间分配一个权重,通过使用权重,可以近似计算原始数据的各种统计量。
KLL Quantile
KLL Quantile 是一种用于计算数据流中近似分位数的算法,它通过获取一个空间数据草图和匹配的下界,解决了数据流计算模型中分位数草图的最佳结构问题,证明了随机分位数和准确分位数的数据草图之间的性质差距。
推广
分位数估计提供了随机变量方差计算的非参数方法,除了假定该分布在预测阶段仍然成立以外,它不对组合的收益率作具体的分布假定。分位数回归是分位数估计方法之一。
分位数回归模型
基本思想:传统的最小二乘回归模型考察的是随机变量平均数与解释变量的关系。分位数回归是以古典条件均值模型为基础的最小二乘法的延伸,它用几个分位函数来估计整体模型。该方法不仅能够度量回归变量对因变量分布中心的影响,而且能度量回归变量对分布上尾和下尾的影响,比经典的最小二乘回归法更具有优势。
设为实值随机变量,其分布函数为,则对于任意的,有:
称式为的分位数,当时,即为中位数。在分位数回归模型中,定义损失函数为分段线性函数:
其中为指示函数。在决策理论中,损失函数不同,决策内容亦不同。求损失函数期望的最优化问题可以表示为
对求一阶导数,得
由于为单调函数,因此满足的任一元素都可以使期望损失最小。当解唯一时,;当有多个解时,取解区间的左端点,那么,引入损失函数可以求得分位数的点估计。考虑一个样本,求它的概率水平的分位数问题可以转换成下面的最优化问题:
给定信息集,的条件分位数函数可以表示为,系数向量的估计由
得到。式可以进一步写作
可以看出系数向量的估计随的变化而不同。分位数回归的本质是通过在之间取值,调节回归线(或者回归平面)的位置和方向,以优化目标函数。
一般估计方法
分位数回归法的特殊情况就是中位数回归(最小一乘回归),用对称权重解决残差绝对值之和最小化问题,而其他条件分位数回归则需要用非对称权重解决残差绝对值之和的最小化。
类似理论
平均数
定义:平均数也称均值,是一组数据相加后除以数据的个数得到的结果,样本平均数是度量数据水平的常用统计量。
(1)未分组数据:设一组样本数据为,样本量(样本数据的个数)为,则样本平均数计算公式为:
它也称为简单平均数
(2)组距式分组数据:代表组数,各组的组中值分别用表示,各组的频数分别用表示,则样本平均数的计算公式为:
该平均数也表示加权平均数
联系:设是随机变量的分位数,其平均数为,方差为,则有
对于,如果且,则称是随机变量的分位数。
推论:中位数的上下限由下式确定
由式可知,中位数与平均数的差值不会超过一个标准差
应用
金融学
金融学中,股票市场风险是系统性金融风险的重要内容。股票市场风险的影响因素,除了市场之间的溢出效应外,还具有复杂性、多样性。传统的股票市场风险研究方法,主要基于单市场分析风险特征,对于股票市场的风险影响因素探究具有局限性。基于分位数预测回归模型的股票市场风险方法,能更加全面地对股票市场风险的影响因素进行分析,并可以更好地帮助研究者和决策者发现市场风险的影响因素,有助于其防范与控制市场风险。
工程学
电力市场环境下,水电厂要综合水电的经济和技术特性,考虑上网竞价过程中的各种不确定性因素,在多个时段和多个市场中对发电量进行分解和分配。而电量的时空分布计算常常呈现多期风险,即动态风险。针对水电在上网竞价过程中面临的各类营销风险,可以采用分位数的条件风险价值方法,以各期分位数的条件风险价值的绝对偏差加权和最小为目标函数建立数学模型,能有效地衡量各类风险,增强风险度量指标的可行性和实用性。
地理学
在全球应对气候变化,并向低碳能源转型的过程中,气候政策的不确定性越来越成为影响能源市场回报的重要因素。为了应对气候变化的不确定性造成的经济体系的风险问题,通过条件分位数向量自回归模型构建基于不同条件分位数的溢出指数,可以分析气候政策不确定性变化与能源市场收益率在整个条件分布上的关联性和左右尾部的溢出特征,其结果显示,通过增加气候政策调整的弹性和透明度引导和稳定市场预期,可防范和化解气候政策不确定性给能源市场带来的风险溢出。
参考资料
目录
概述
定义
简史
早期研究
后续发展
常见类型
中位数
四分位数
百分位数
常用结果
正态分布
卡方分布
t分布
F分布
相关算法
NORMAL
t-Digests
KLL Quantile
推广
分位数回归模型
一般估计方法
类似理论
平均数
应用
金融学
工程学
地理学
参考资料