正態(tài)分布是指什么?正態(tài)分布的定理、定義、特征及應(yīng)用
一、正態(tài)分布是指什么
正態(tài)分布(英文:Normal distribution)又稱(chēng)為常態(tài)分布或高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二項(xiàng)分布的漸近公式中得到。C.F.高斯在研究測(cè)量誤差時(shí)從另一個(gè)角度導(dǎo)出了它。P.S.拉普拉斯和高斯研究了它的性質(zhì)。是一個(gè)在數(shù)學(xué)、物理及工程等領(lǐng)域都非常重要的概率分布,在統(tǒng)計(jì)學(xué)的許多方面有著重大的影響力。
正態(tài)曲線呈鐘型,兩頭低,中間高,左右對(duì)稱(chēng)因其曲線呈鐘形,因此人們又經(jīng)常稱(chēng)之為鐘形曲線。
若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ2的正態(tài)分布,記為N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。
二、正態(tài)分布的發(fā)展
正態(tài)分布概念是由法國(guó)數(shù)學(xué)家棣莫弗(Abraham de Moivre)于1733年首次提出的,后由德國(guó)數(shù)學(xué)家Gauss率先將其應(yīng)用于天文學(xué)研究,故正態(tài)分布又叫高斯分布,高斯這項(xiàng)工作對(duì)后世的影響極大,他使正態(tài)分布同時(shí)有了"高斯分布"的名稱(chēng),后世之所以多將最小二乘法的發(fā)明權(quán)歸之于他,也是出于這一工作。 [1] 但德國(guó)10馬克的印有高斯頭像的鈔票,其上還印有正態(tài)分布的密度曲線。這傳達(dá)了一種想法:在高斯的一切科學(xué)貢獻(xiàn)中,其對(duì)人類(lèi)文明影響最大者,就是這一項(xiàng)。在高斯剛作出這個(gè)發(fā)現(xiàn)之初,也許人們還只能從其理論的簡(jiǎn)化上來(lái)評(píng)價(jià)其優(yōu)越性,其全部影響還不能充分看出來(lái)。這要到20世紀(jì)正態(tài)小樣本理論充分發(fā)展起來(lái)以后。拉普拉斯很快得知高斯的工作,并馬上將其與他發(fā)現(xiàn)的中心極限定理聯(lián)系起來(lái),為此,他在即將發(fā)表的一篇文章(發(fā)表于1810年)上加上了一點(diǎn)補(bǔ)充,指出如若誤差可看成許多量的疊加,根據(jù)他的中心極限定理,誤差理應(yīng)有高斯分布。這是歷史上第一次提到所謂"元誤差學(xué)說(shuō)"——誤差是由大量的、由種種原因產(chǎn)生的元誤差疊加而成。后來(lái)到1837年,海根(G.Hagen)在一篇論文中正式提出了這個(gè)學(xué)說(shuō)。
其實(shí),他提出的形式有相當(dāng)大的局限性:海根把誤差設(shè)想成個(gè)數(shù)很多的、獨(dú)立同分布的"元誤差" 之和,每只取兩值,其概率都是1/2,由此出發(fā),按棣莫弗的中心極限定理,立即就得出誤差(近似地)服從正態(tài)分布。拉普拉斯所指出的這一點(diǎn)有重大的意義,在于他給誤差的正態(tài)理論一個(gè)更自然合理、更令人信服的解釋。因?yàn)?,高斯的說(shuō)法有一點(diǎn)循環(huán)論證的氣味:由于算術(shù)平均是優(yōu)良的,推出誤差必須服從正態(tài)分布;反過(guò)來(lái),由后一結(jié)論又推出算術(shù)平均及最小二乘估計(jì)的優(yōu)良性,故必須認(rèn)定這二者之一(算術(shù)平均的優(yōu)良性,誤差的正態(tài)性) 為出發(fā)點(diǎn)。但算術(shù)平均到底并沒(méi)有自行成立的理由,以它作為理論中一個(gè)預(yù)設(shè)的出發(fā)點(diǎn),終覺(jué)有其不足之處。拉普拉斯的理論把這斷裂的一環(huán)連接起來(lái),使之成為一個(gè)和諧的整體,實(shí)有著極重大的意義。
三、正態(tài)分布的定理
由于一般的正態(tài)總體其圖像不一定關(guān)于y軸對(duì)稱(chēng),對(duì)于任一正態(tài)總體,其取值小于x的概率。只要會(huì)用它求正態(tài)總體在某個(gè)特定區(qū)間的概率即可。
為了便于描述和應(yīng)用,常將正態(tài)變量作數(shù)據(jù)轉(zhuǎn)換。將一般正態(tài)分布轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)分布。
若
服從標(biāo)準(zhǔn)正態(tài)分布,通過(guò)查標(biāo)準(zhǔn)正態(tài)分布表就可以直接計(jì)算出原正態(tài)分布的概率值。故該變換被稱(chēng)為標(biāo)準(zhǔn)化變換。(標(biāo)準(zhǔn)正態(tài)分布表:標(biāo)準(zhǔn)正態(tài)分布表中列出了標(biāo)準(zhǔn)正態(tài)曲線下從-∞到X(當(dāng)前值)范圍內(nèi)的面積比例。)
四、正態(tài)分布的定義
1、一維正態(tài)分布
若隨機(jī)變量 服從一個(gè)位置參數(shù)為 、尺度參數(shù)為 的概率分布,且其概率密度函數(shù)為:
則這個(gè)隨機(jī)變量就稱(chēng)為正態(tài)隨機(jī)變量,正態(tài)隨機(jī)變量服從的分布就稱(chēng)為正態(tài)分布,記作,讀作X服從
,或X服從正態(tài)分布。
μ維隨機(jī)向量具有類(lèi)似的概率規(guī)律時(shí),稱(chēng)此隨機(jī)向量遵從多維正態(tài)分布。多元正態(tài)分布有很好的性質(zhì),例如,多元正態(tài)分布的邊緣分布仍為正態(tài)分布,它經(jīng)任何線性變換得到的隨機(jī)向量仍為多維正態(tài)分布,特別它的線性組合為一元正態(tài)分布。
本詞條的正態(tài)分布是一維正態(tài)分布,此外多維正態(tài)分布參見(jiàn)"二維正態(tài)分布"。
2、標(biāo)準(zhǔn)正態(tài)分布
當(dāng)時(shí),正態(tài)分布就成為標(biāo)準(zhǔn)正態(tài)分布:
五、正態(tài)分布的特征
1、集中性:正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置。
2、對(duì)稱(chēng)性:正態(tài)曲線以均數(shù)為中心,左右對(duì)稱(chēng),曲線兩端永遠(yuǎn)不與橫軸相交。
3、均勻變動(dòng)性:正態(tài)曲線由均數(shù)所在處開(kāi)始,分別向左右兩側(cè)逐漸均勻下降。
4、正態(tài)分布有兩個(gè)參數(shù),即均數(shù)μ和標(biāo)準(zhǔn)差σ,可記作N(μ,σ):均數(shù)μ決定正態(tài)曲線的中心位置;標(biāo)準(zhǔn)差σ決定正態(tài)曲線的陡峭或扁平程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。
5、u變換:為了便于描述和應(yīng)用,常將正態(tài)變量作數(shù)據(jù)轉(zhuǎn)換。
六、正態(tài)分布的應(yīng)用
1、綜述
(1)、估計(jì)頻數(shù)分布 一個(gè)服從正態(tài)分布的變量只要知道其均數(shù)與標(biāo)準(zhǔn)差就可根據(jù)公式即可估計(jì)任意取值范圍內(nèi)頻數(shù)比例。
(2)、制定參考值范圍
● 正態(tài)分布法 適用于服從正態(tài)(或近似正態(tài))分布指標(biāo)以及可以通過(guò)轉(zhuǎn)換后服從正態(tài)分布的指標(biāo)。
●百分位數(shù)法 常用于偏態(tài)分布的指標(biāo)。表3-1中兩種方法的單雙側(cè)界值都應(yīng)熟練掌握。
(3)、質(zhì)量控制:為了控制實(shí)驗(yàn)中的測(cè)量(或?qū)嶒?yàn))誤差,常以 作為上、下警戒值,以 作為上、下控制值。這樣做的依據(jù)是:正常情況下測(cè)量(或?qū)嶒?yàn))誤差服從正態(tài)分布。
(4)、正態(tài)分布是許多統(tǒng)計(jì)方法的理論基礎(chǔ)。檢驗(yàn)、方差分析、相關(guān)和回歸分析等多種統(tǒng)計(jì)方法均要求分析的指標(biāo)服從正態(tài)分布。許多統(tǒng)計(jì)方法雖然不要求分析指標(biāo)服從正態(tài)分布,但相應(yīng)的統(tǒng)計(jì)量在大樣本時(shí)近似正態(tài)分布,因而大樣本時(shí)這些統(tǒng)計(jì)推斷方法也是以正態(tài)分布為理論基礎(chǔ)的。
2、頻數(shù)分布
例1.10 某地1993年抽樣調(diào)查了100名18歲男大學(xué)生身高(cm),其均數(shù)=172.70cm,標(biāo)準(zhǔn)差s=4.01cm,①估計(jì)該地18歲男大學(xué)生身高在168cm以下者占該地18歲男大學(xué)生總數(shù)的百分?jǐn)?shù);②分別求X+-1s、X+-1.96s、X+-2.58s范圍內(nèi)18歲男大學(xué)生占該地18歲男大學(xué)生總數(shù)的實(shí)際百分?jǐn)?shù),并與理論百分?jǐn)?shù)比較。
本例,μ、σ未知但樣本含量n較大,按式(3.1)用樣本均數(shù)X和標(biāo)準(zhǔn)差S分別代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表標(biāo)準(zhǔn)正態(tài)曲線下的面積,在表的左側(cè)找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大學(xué)生身高在168cm以下者,約占總數(shù)12.10%。其它計(jì)算結(jié)果見(jiàn)表3。
表3 100名18歲男大學(xué)生身高的實(shí)際分布與理論分布
100名18歲男大學(xué)生身高的實(shí)際分布與理論分布
3、綜合素質(zhì)研究
教育統(tǒng)計(jì)學(xué)統(tǒng)計(jì)規(guī)律表明,學(xué)生的智力水平,包括學(xué)習(xí)能力,實(shí)際動(dòng)手能力等呈正態(tài)分布。因而正常的考試成績(jī)分布應(yīng)基本服從正態(tài)分布??荚嚪治鲆罄L制出學(xué)生成績(jī)分布的直方圖,以"中間高、兩頭低"來(lái)衡量成績(jī)符合正態(tài)分布的程度。其評(píng)價(jià)標(biāo)準(zhǔn)認(rèn)為:考生成績(jī)分布情況直方圖,基本呈正態(tài)曲線狀,屬于好,如果略呈正(負(fù))態(tài)狀,屬于中等,如果呈嚴(yán)重偏態(tài)或無(wú)規(guī)律,就是差的。
從概率統(tǒng)計(jì)規(guī)律看,"正常的考試成績(jī)分布應(yīng)基本服從正態(tài)分布"是正確的。但是必須考慮人與物的本質(zhì)不同,以及教育的有所作為可以使"隨機(jī)"受到干預(yù),用曲線或直方圖的形狀來(lái)評(píng)價(jià)考試成績(jī)就有失偏頗。許多教育專(zhuān)家(如上海顧泠沅、美國(guó)布魯姆等)已經(jīng)通過(guò)實(shí)踐論證,教育是可以大有作為的,可以做到大多數(shù)學(xué)生及格,而且多數(shù)學(xué)生可以得高分,考試成績(jī)曲線是偏正態(tài)分布的。但是長(zhǎng)期受到"中間高、兩頭低"標(biāo)準(zhǔn)的影響,限制了教師的作為,抑制了多數(shù)學(xué)生能夠?qū)W好的信心。這是很大的誤會(huì)。通常正態(tài)曲線有一條對(duì)稱(chēng)軸。當(dāng)某個(gè)分?jǐn)?shù)(或分?jǐn)?shù)段)的考生人數(shù)最多時(shí),對(duì)應(yīng)曲線的最高點(diǎn),是曲線的頂點(diǎn)。該分?jǐn)?shù)值在橫軸上的對(duì)應(yīng)點(diǎn)與頂點(diǎn)連接的線段就是該正態(tài)曲線的對(duì)稱(chēng)軸。考生人數(shù)最多的值是峰值。我們注意到,成績(jī)曲線或直方圖實(shí)際上很少對(duì)稱(chēng)的,稱(chēng)之為峰線更合適。
4、醫(yī)學(xué)參考值
某些醫(yī)學(xué)現(xiàn)象,如同質(zhì)群體的身高、紅細(xì)胞數(shù)、血紅蛋白量,以及實(shí)驗(yàn)中的隨機(jī)誤差,呈現(xiàn)為正態(tài)或近似正態(tài)分布;有些指標(biāo)(變量)雖服從偏態(tài)分布,但經(jīng)數(shù)據(jù)轉(zhuǎn)換后的新變量可服從正態(tài)或近似正態(tài)分布,可按正態(tài)分布規(guī)律處理。其中經(jīng)對(duì)數(shù)轉(zhuǎn)換后服從正態(tài)分布的指標(biāo),被稱(chēng)為服從對(duì)數(shù)正態(tài)分布。
醫(yī)學(xué)參考值范圍亦稱(chēng)醫(yī)學(xué)正常值范圍。它是指所謂"正常人"的解剖、生理、生化等指標(biāo)的波動(dòng)范圍。制定正常值范圍時(shí),首先要確定一批樣本含量足夠大的"正常人",所謂"正常人"不是指"健康人",而是指排除了影響所研究指標(biāo)的疾病和有關(guān)因素的同質(zhì)人群;其次需根據(jù)研究目的和使用要求選定適當(dāng)?shù)陌俜纸缰?,?0%,90%,95%和99%,常用95%;根據(jù)指標(biāo)的實(shí)際用途確定單側(cè)或雙側(cè)界值,如白細(xì)胞計(jì)數(shù)過(guò)高過(guò)低皆屬不正常須確定雙側(cè)界值,又如肝功中轉(zhuǎn)氨酶過(guò)高屬不正常須確定單側(cè)上界,肺活量過(guò)低屬不正常須確定單側(cè)下界。另外,還要根據(jù)資料的分布特點(diǎn),選用恰當(dāng)?shù)挠?jì)算方法。常用方法有:
(1)、正態(tài)分布法:適用于正態(tài)或近似正態(tài)分布的資料。
雙側(cè)界值:X+-u(u)S單側(cè)上界:X+u(u)S,或單側(cè)下界:X-u(u)S
(2)、對(duì)數(shù)正態(tài)分布法:適用于對(duì)數(shù)正態(tài)分布資料。
雙側(cè)界值:lg-1[X(lgx)+-u(u)S(lgx)];單側(cè)上界:lg-1[X(lgx)+u(u)S(lgx)],或單側(cè)下界:lg-1[X(lgx)-u(u)S(lgx)]。
常用u值可根據(jù)要求由表4查出。
(3)、百分位數(shù)法:常用于偏態(tài)分布資料以及資料中一端或兩端無(wú)確切數(shù)值的資料。
雙側(cè)界值:P2.5和P97.5;單側(cè)上界:P95,或單側(cè)下界:P5。
表4常用u值表
常用u值表
統(tǒng)計(jì)的理論基礎(chǔ):
如t分布、F分布、分布都是在正態(tài)分布的基礎(chǔ)上推導(dǎo)出來(lái)的,u檢驗(yàn)也是以正態(tài)分布為基礎(chǔ)的。此外,t分布、二項(xiàng)分布、Poisson分布的極限為正態(tài)分布,在一定條件下,可以按正態(tài)分布原理來(lái)處理。
5、員工績(jī)效
大部分員工的業(yè)績(jī),都是一般的,做得特別好的非常少,做得特別差的也不多見(jiàn)。這就是為什么績(jī)效管理領(lǐng)域,會(huì)用"活力曲線"來(lái)考核業(yè)績(jī)。
什么是"活力曲線"呢?
員工流失率太高顯然不好。據(jù)計(jì)算,招聘的過(guò)程花費(fèi),大概是這名員工年薪的50%。過(guò)高的員工流失率,意味著失控的招聘成本。離職的業(yè)績(jī)損失,大概是這名員工年薪的30%-400%。過(guò)高的員工流失率,更意味著巨大的業(yè)績(jī)損失。
員工流失率太低也不好。極低的員工流失率,通常來(lái)自對(duì)低績(jī)效的容忍。允許績(jī)效差的員工留在團(tuán)隊(duì),損失的不僅是工資,而是本應(yīng)獲得的業(yè)績(jī)。另外,績(jī)效差的員工通常更不愿離開(kāi),因?yàn)樗赡苷也坏搅硪环莨ぷ鳌榱税踩?,他?huì)想辦法擠走績(jī)效好的人,你的團(tuán)隊(duì)會(huì)越來(lái)越?jīng)]有戰(zhàn)斗力。
通用電氣前CEO杰克·韋爾奇認(rèn)為,大家很容易認(rèn)識(shí)到員工流失率太高的問(wèn)題,卻很難認(rèn)識(shí)到流失率太低的危害,所以,他提出了著名的"末位淘汰制"(也叫"活力曲線"),他把員工分為:
20%的優(yōu)秀員工,70%的中等員工,和10%的末位員工。 末位員工必須提升自己,或者轉(zhuǎn)崗,或者面臨淘汰。
這個(gè)制度,被認(rèn)為是給通用電氣帶來(lái)無(wú)限活力的法寶之一。
所以,以后上班別偷懶,小心被老板裁掉。害怕吧?
符合正態(tài)分布的商業(yè)現(xiàn)象
七、數(shù)據(jù)正態(tài)分布檢驗(yàn) Q-Q圖
要觀察某一屬性的一組數(shù)據(jù)是否符合正態(tài)分布,可以有兩種方法(目前我知道這兩種,并且這兩種方法只是直觀觀察,不是定量的正態(tài)分布檢驗(yàn)):
1:在spss(Statistical Package for the Social Sciences,即"社會(huì)科學(xué)統(tǒng)計(jì)軟件包")里的基本統(tǒng)計(jì)分析功能里的頻數(shù)統(tǒng)計(jì)功能里有對(duì)某個(gè)變量各個(gè)觀測(cè)值的頻數(shù)直方圖中可以選擇繪制正態(tài)曲線。具體如下:Analyze-----Descriptive Statistics-----Frequencies,打開(kāi)頻數(shù)統(tǒng)計(jì)對(duì)話框,在Statistics里可以選擇獲得各種描述性的統(tǒng)計(jì)量,如:均值、方差、分位數(shù)、峰度、 標(biāo)準(zhǔn)差等各種描述性統(tǒng)計(jì)量。在Charts里可以選擇顯示的圖形類(lèi)型,其中Histograms選項(xiàng)為柱狀圖也就是我們說(shuō)的直方圖,同時(shí)可以選擇是否繪制 該組數(shù)據(jù)的正態(tài)曲線(With norma curve),這樣我們可以直觀觀察該組數(shù)據(jù)是否大致符合正態(tài)分布。如下圖:
正態(tài)分布圖
從上圖中可以看出,該組數(shù)據(jù)基本符合正態(tài)分布。
2:正態(tài)分布的Q-Q圖:在spss里的基本統(tǒng)計(jì)分析功能里的探索性分析里面可以通過(guò)觀察數(shù)據(jù)的q-q圖來(lái)判斷數(shù)據(jù)是否服從正態(tài)分布。
具體步驟如下:Analyze-----Descriptive Statistics-----Explore打開(kāi)對(duì)話框,選擇Plots選項(xiàng),選擇Normality plots with tests選項(xiàng),可以繪制該組數(shù)據(jù)的q-q圖。圖的橫坐標(biāo)為改變量的觀測(cè)值,縱坐標(biāo)為分位數(shù)。若該組數(shù)據(jù)服從正態(tài)分布,則圖中的點(diǎn)應(yīng)該靠近圖中直線。
縱坐標(biāo)為分位數(shù),是根據(jù)分布函數(shù)公式F(x)=i/n+1得出的.i為把一組數(shù)從小到大排序后第i個(gè)數(shù)據(jù)的位置,n為樣本容量。若該數(shù)組服從正態(tài)分布則其q-q圖應(yīng)該與理論的q-q圖(也就是圖中的直線)基本符合。對(duì)于理論的標(biāo)準(zhǔn)正態(tài)分布,其q-q圖為y=x直線。非標(biāo)準(zhǔn)正態(tài)分布的斜率為樣本標(biāo)準(zhǔn)差,截距為樣本均值。
如下圖:
spss正態(tài)分布Q-Q圖
總結(jié)
優(yōu)化猩SEO:正態(tài)分布是商業(yè)界最常見(jiàn)的一種分布。當(dāng)影響結(jié)果(或者成功)的因素特別多,沒(méi)有哪個(gè)因素可以完全左右結(jié)果時(shí),這個(gè)結(jié)果通常就呈現(xiàn)正態(tài)分布。
參考鏈接:
正態(tài)分布
https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83/829892
正態(tài)分布
https://wiki.mbalib.com/wiki/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83
怎樣用通俗易懂的文字解釋正態(tài)分布及其意義
https://www.zhihu.com/question/56891433/answer/213354580
修改于2023-12-09
想了解更多營(yíng)銷(xiāo)百科的內(nèi)容,請(qǐng)?jiān)L問(wèn):營(yíng)銷(xiāo)百科
本文來(lái)源:http://www.sonygallery.com.cn/seojianzhan/18049.html