与偏度(系数)一样,峰度(系数)也是一个用于评价数据系列分布特征的指标。根据这两个指标,我们可以判断数据系列的分布是否满足正态性,进而评价平均数指标的使用价值。一般地,对于一个偏态分布、肥尾分布特征很明显的数据序列来说,平均数这个指标极易令人误解数据序列分布的集中位置及其集中程度,故此使用起来要极其谨慎。
峰度(系数)等于数据序列的四阶中心矩与标准差的四次幂之比。设若先将数据标准化,则峰度(系数)相当于标准化数据序列的四阶中心矩。
显然,一个数据距离均值越远,其对四阶中心矩计算结果的影响越大。是故,峰度(系数)是一个用于衡量离群数据离群度的指标。峰度(系数)越大,说明该数据系列中的极端值越多。这在数据序列的分布曲线图中来看,体现为存在明显的“肥尾”。当然,峰度(系数)较大也可能说明离群数据取值的极端性很严重,或者各数据距离均值的距离普遍较远。可见,峰度(系数)的大小到底能说明什么问题,最好还是看图确定。
根据Jensen不等式,可以确定出峰度(系数)的取值范围:它的下限不会低于1,上限不会高于数据的个数。
有一些典型分布的峰度(系数)值得特别关注。例如,正态分布的峰度(系数)为常数3,均匀分布的峰度(系数)为常数1.8。在统计实践中,我们经常把这两个典型的分布曲线作为评价样本数据序列分布性态的参照。
在金融学中,峰度这个指标具有一定的意义。一项金融资产,设若其预期收益率的峰度较高,则说明该项资产的预期收益率有相对较高的概率取极端值。换句话说,该项资产未来行市发生剧烈波动的概率相对较高。
博文后记:
在2012年9月,我应约讲解峰度这个指标,于是写出此篇小品文。只是没想到会广受关注。
后来,我在网络上见到一些学校的教师很可能在《概率论与数理统计》等课程中讲授这个指标的课件。另在一些论文(诸如硕士、博士论文乃至于正式发表的论文)中也见到对于这个指标的具体应用及其解释。发现对于这个指标,普遍存在误解之处(或者称作与我的理解不一致之处)。特此再写一点文字,谈谈我对这个指标的看法。参见
2016-03-21 22:18:20
当然了,我毕竟不是数学专业出身。此外,平常并不关注这些东西。其实,即使自己应该很熟悉的东西,即使属于本专业的范畴,只要平时不经常用到,冷不丁提及,也很有可能会出现考虑不周,乃至出错的地方。因此,我不敢说数学教师们、硕士博士们、专家学者们有误。本博文仅供参考,-以期抛砖引玉之功效而已。
----------------------------2016年3月22日7:57
评论