小編整理: 標準差(Standard Deviation)是一種描述數(shù)據(jù)的離散程度的統(tǒng)計量,表示數(shù)據(jù)集合中每個數(shù)值與數(shù)據(jù)集平均值的偏離程度,越大表示該數(shù)據(jù)集合整體的離散程度越大,越小表示數(shù)據(jù)集合整體的離散程度越小,19世紀末由
英國 統(tǒng)計學(xué)家卡爾·皮爾遜(Karl Pearson)首先提出,其算術(shù)平方根稱為標準差。
標準差 標準差正態(tài)函數(shù)
標準差(Standard Deviation)是一種描述數(shù)據(jù)的離散程度的統(tǒng)計量。 標準差表示數(shù)據(jù)集合中每個數(shù)值與數(shù)據(jù)集平均值的偏離程度,越大表示該數(shù)據(jù)集合整體的離散程度越大,越小表示數(shù)據(jù)集合整體的離散程度越小,19世紀末,由英國統(tǒng)計學(xué)家 卡爾·皮爾遜 (Karl Pearson)首先提出。
基本信息
適用學(xué)科
數(shù)學(xué)、統(tǒng)計學(xué)等
歷史 標準差是由英國統(tǒng)計學(xué)家卡爾·皮爾遜在19世紀末首先提出來的,當時,人們通過求解方差已經(jīng)可以很好地描述數(shù)據(jù)分布的離散程度,但是方差最后獲得的值是平方單位的,不利于人們對其進行直觀的理解和比較。而標準差的出現(xiàn),正是為了解決這個問題。 它是方差的平方根,具有良好的可解釋性和可比性,更容易被人們直觀地理解和應(yīng)用。因此,到了 20世紀初,標準差很快被廣泛地應(yīng)用于數(shù)據(jù)分析 、統(tǒng)計學(xué)、概率論以及各種相關(guān)領(lǐng)域。 標準差的出現(xiàn)和統(tǒng)計學(xué)的發(fā)展密不可分。在現(xiàn)代經(jīng)濟和科學(xué)技術(shù)領(lǐng)域中,數(shù)據(jù)量已經(jīng)變得非常龐大,要想對這些數(shù)據(jù)進行有意義的分析和應(yīng)用,需要借助統(tǒng)計學(xué)的工具和方法。標準差作為一個重要的統(tǒng)計量,可以幫助 人們更好地描述數(shù)據(jù)分布的離散程度和數(shù)據(jù)點之間的差異性,對數(shù)據(jù)分析和決策具有重要的參考作用。
相關(guān)概念
方差 標準差是方差的正平方根,即有:
其中,s表示標準差,Var表示方差。方差和標準差存在一種簡單的互相轉(zhuǎn)化的關(guān)系,這種關(guān)系表示了數(shù)據(jù)分散程度的兩種不同表現(xiàn)方式,我們在實際應(yīng)用中更常用標準差而不是方差,因為標準差具有與原始數(shù)據(jù)相同的物理單位,它更容易解釋和理解。
總體標準差 總體標準差是指總體數(shù)據(jù)分布中所有數(shù)據(jù)點與其平均值(或總體參數(shù))之間的差距的平均值的平方根。 與樣本標準差不同,總體標準差是基于整個總體的所有數(shù)據(jù)進行計算的,包括已知和未知的數(shù)據(jù)。如果我們有總體的全部數(shù)據(jù),我們可以用全樣本計算總體標準差,而如果我們只有一個樣本,就需要通過樣本標準差來估計總體標準差。
總體標準差是衡量總體數(shù)據(jù)分布的離散度的一種重要指標,在統(tǒng)計分析、財務(wù)分析、商業(yè)決策、品質(zhì)控制以及市場調(diào)查等領(lǐng)域廣泛應(yīng)用。例如,在市場調(diào)研中,研究人員可以使用總體標準差在整個市場中衡量某種產(chǎn)品或服務(wù)的消費者需求的波動程度,以制定 更好的市場營銷策略。在財務(wù)分析中,總體標準差可用于評估一家公司股票的波動程度和風(fēng)險率,幫助投資者制定更好的投資策略。 其中, 是所有數(shù)據(jù)與總體參數(shù)(平均值)的差距的平方之和,N 是總體數(shù)據(jù)的數(shù)目。 總體標準差通常與樣本標準差一起使用。如果我們有總體的全部數(shù)據(jù),我們可以用總體標準差來描述數(shù)據(jù)的分布情況。如果我們只有一個樣本數(shù)據(jù),我們需要用樣本標準差來估計總體標準差。在數(shù)據(jù)分析和統(tǒng)計學(xué)中,總體標準差的準確度和估計誤差對于數(shù)據(jù)分析和結(jié)論推斷具有很重要的影響。
樣本標準差和總體標準差的區(qū)別在于它們基于不同的樣本或總體。樣本標準差是基于樣本數(shù)據(jù)計算的標準差,而總體標準差是基于總體數(shù)據(jù)計算的標準差。
在統(tǒng)計中,由于總體標準差很難計算,通常使用樣本標準差來估計總體標準差。這個過程是基于 大數(shù)定律 的原理,即隨著樣本量的增加,樣本標準差越來越接近總體標準差。 一般來說,樣本標準差可以代替總體標準差進行推斷和分析,但需要滿足一定的前提條件,如總體必須符合正態(tài)分布、樣本容量要足夠大等。在使用樣本標準差代替總體標準差時,需要注意樣本量的選擇 和樣本的代表性,以確保估計的準確性。
單次測量標準差 單次測量標準差是一種用于衡量單次測量誤差的統(tǒng)計量。它評估單次測量的變異性,而不考慮多次測量的變異性。單次測量標準差越小,表示單次測量的精度越高。
在實際測量中,很難避免存在誤差。單次測量標準差可以用來衡量一個測量值與其平均值的差異,以評估測量結(jié)果的精度和準確性。較小的單次測量標準差表明單次測量誤差較小,結(jié)果較準確。
單次測量標準差的計算公式如下:
其中,s是單次測量標準差, 是第i次的測量值,x是測量值的平均值,n是測量次數(shù)。
均方根誤差 均方根誤差是統(tǒng)計學(xué)中用于衡量預(yù)測值與實際值之間誤差的一個指標,也是模型擬合度和預(yù)測準確性的一種度量。它是所有誤差的平方平均值(MSE)的平方根。
均方根誤差經(jīng)常被用來比較不同模型預(yù)測結(jié)果的準確程度,以選擇最好的預(yù)測模型。均方根誤差越小,表明預(yù)測模型的擬合度越好,預(yù)測結(jié)果越準確。
均方根誤差的計算公式如下:
其中, 是實際值, 是預(yù)測值, 是數(shù)據(jù)總數(shù)。
均方差 均方差是指樣本數(shù)據(jù)集中 每個數(shù)據(jù)點與真實值的誤差平方的平均數(shù)。均方差通常用于評估預(yù)測模型的精度和準確性,也可在回歸問題中用作損失函數(shù)。 均方差的公式如下:
其中,n是樣本數(shù)量, 是樣本中第 i個數(shù)據(jù)點的真實值, 是使用模型預(yù)測的第i個數(shù)據(jù)點的值。 MSE 值越小,表示模型的預(yù)測結(jié)果越接近真實值,表示模型的精度和準確性越高。相反,MSE 值越大,則意味著模型的預(yù)測結(jié)果與真實值之間的誤差越大。
標準誤差 是某一統(tǒng)計量(如樣本均值、樣本均值之差、樣本比例、相關(guān)系數(shù)等)抽樣分布的標準。標準誤差用于衡量樣本統(tǒng)計量的離散程度,在參數(shù)估計和假設(shè)檢驗中,它是用于衡量樣本統(tǒng)計量與總體參數(shù)之間差距的重要尺度。在實際應(yīng)用中,標準誤差往往是根據(jù)樣本數(shù)據(jù)計算來的,根據(jù)樣本數(shù)據(jù)計算的標準誤差實際上是 估計標準誤差 (在用統(tǒng)計軟件 計算時給出的都是估計標準誤差)。常見的標準誤差有樣本均值的標準誤差、樣本比例的標準誤差、樣本相關(guān)系數(shù)的標準誤差、線性回歸方程斜率及截距的標準誤差、回歸估計的標準誤差等,與標準差的關(guān)系為: 。
標準差性質(zhì)
非負性 標準差的非負性指標準差的值始終為非負數(shù),即標準差不可能為負數(shù)。因為標準差是一個衡量數(shù)據(jù)分散程度的統(tǒng)計量,它是平均值和每個數(shù)據(jù)點之間的差的平方的平均值的平方根。平方根的結(jié)果始終為非負數(shù),所以標準差也始終為非負數(shù)。
可加性 標準差的可加性是指在滿足一定條件下,兩個或多個相互獨立隨機變量的標準差可以相加。如果有多個隨機變量,例如X、Y、Z等,它們各自具有自己的標準差 ,想要計算它們的總體標準差s,則可以使用以下公式: 也就是將每個隨機變量的標準差平方相加,然后再將其和 開平方 即可得到總體標準差。這個公式可以推廣到任意數(shù)量的隨機變量上,而且不管這些隨機變量之間是否存在相關(guān)性,都可以使用這個公式計算它們的總體標準差。
標準差及正態(tài)分布 標準差的正態(tài)分布是指,對于一個服從正態(tài)分布的隨機變量,其標準差的取值也服從一個正態(tài)分布。正態(tài)分布是由它的平均數(shù)u和標準差唯一決定的常把它記為 ,即標準差 條件下的正態(tài)分布記為 從形態(tài)上看,正態(tài)分布是一條單峰、對稱鐘形的曲線,其對稱軸為 ,并在 時取最大值從 點開始,曲線向正負兩個方向遞減延伸,不斷逼近x軸但永不與x軸相交因此說曲線在正負兩個方向都是以x軸為漸近線的。 通過以下三組正態(tài)分布的曲線,可知正態(tài)曲線具有兩頭低、中間高、左右對稱的基本特征。
常數(shù)的標準差 假設(shè)X是隨機變量,數(shù)學(xué)期望 E(X)存在,并且定義 也存在,則稱之為X的方差,記作 ,即 稱為隨機變量X的標準差。
乘積的標準差 已知隨機變量X1均值和方差分別為a、b,X2的均值和方差分別為c、d,那么 的方差是: 即其標準差為
基本計算 標準差的數(shù)學(xué)理解是對數(shù)據(jù)的離散程度的度量,它是每個數(shù)據(jù)值與平均值的偏差的 平方平均數(shù) 的平方根。 如果數(shù)據(jù)的標準差較小,則表示這些數(shù)據(jù)非常接近平均值,數(shù)據(jù)的離散程度較小,而數(shù)據(jù)的標準差較大,則表示這些數(shù)據(jù)相對分散,數(shù)據(jù)的離散程度較大。 用公式表示是:
技算步驟 標準差的基本計算步驟主要分為以下五步 :
計算數(shù)據(jù)的平均值,即將所有數(shù)據(jù)之和除以數(shù)據(jù)的個數(shù),得到一個數(shù)值,記為 。 計算每個數(shù)據(jù)值與平均值的差,即將每個數(shù)據(jù)減去平均值 ,得到一組差值。 計算每個差值的平方,即將每個差值的絕對值平方,得到一組平方值。
計算所有平方值的平均數(shù),即將所有平方值之和除以樣本數(shù)量,得到一個數(shù)值記為 。 求出標準差,即將 取平方根,得到一個數(shù)值記為 。
實例 假設(shè)我們有10名學(xué)生在一份考試中的得分如下:[75, 80, 60, 90, 95, 70, 85, 85, 90, 65]
第一步計算平均值: =(75 + 80 + 60 + 90 + 95 + 70 + 85 + 85 + 90 + 65) / 10 = 80 第二步計算每位學(xué)生得分和平均值之間的差值:
75 - 80 = -5
80 - 80 = 0
60 - 80 = -20
90 - 80 = 10
95 - 80 = 15
70 - 80 = -10
85 - 80 = 5
85 - 80 = 5
90 - 80 = 10
65 - 80 = -15
第三步計算每個差值的平方值:
(-5)2 = 25
02 = 0
(-20)2 = 400
102 = 100
152 = 225
(-10)2 = 100
52 = 25
52 = 25
102 = 100
(-15)2 = 225
第四步計算平方求和,將所有差值的平方值相加:
25 + 0 + 400 + 100 + 225 + 100 + 25 + 25 + 100 + 225 = 1250
第五步計算方差:
最后計算標準差:
這組數(shù)據(jù)的標準差為11.18。 這說明學(xué)生得分在平均分附近波動很大,差異較大,不能僅僅看平均數(shù)來評價學(xué)生的水平,而需要綜合考慮標準差進行分析。
應(yīng)用范圍
經(jīng)濟學(xué) 在經(jīng)濟金融領(lǐng)域,標準差可以用于衡量經(jīng)濟金融數(shù)據(jù)的波動程度和風(fēng)險程度。
股票投資 標準差在股票投資中扮演了非常重要的角色。投資者可以計算一只股票或組合股票的標準差來度量它們的風(fēng)險程度。一般來說,標準差越大,相對風(fēng)險程度也越高,因此能夠幫助投資者評估其投資組合的風(fēng)險度,以及在風(fēng)險和回報之間做出權(quán)衡。
證券組合 標準差也可以用于評估證券組合的風(fēng)險水平。投資者可以計算證券組合的 平均收益率 和標準差,以評估該組合的價值和風(fēng)險程度。投資者可以通過調(diào)整組合中各種資產(chǎn)的權(quán)重,來控制組合的風(fēng)險和回報之間的平衡關(guān)系。
期權(quán)和期貨交易 標準差在期權(quán)和期貨交易中也是非常重要的一個統(tǒng)計指標。在期權(quán)和期貨交易中,投資者需要評估市場波動率和價格風(fēng)險,以便采取相應(yīng)的對沖策略。標準差可以幫助投資者計算期權(quán)和期貨的隱含波動率,幫助他們更好地控制交易風(fēng)險。
貨幣匯率 標準差還可以用于貨幣交易和匯率變動的分析。投資者可以計算匯率的標準差來衡量市場波動,并通過衍生品和對沖工具的方式來規(guī)避交易風(fēng)險。
經(jīng)濟數(shù)據(jù) 標準差也可以用于評估經(jīng)濟數(shù)據(jù)波動程度,比如通貨膨脹率、失業(yè)率和GDP等。標準差可以幫助經(jīng)濟學(xué)家和決策者評估市場和經(jīng)濟的波動性及風(fēng)險,以及預(yù)測未來 經(jīng)濟走勢。
社會科學(xué) 在社會科學(xué)領(lǐng)域,標準差用于測量和評估各種社會現(xiàn)象的數(shù)據(jù)波動和差異以及不確定性情況。
人口學(xué) 對于某些重要的社會群體,例如不同年齡、性別、種族或出生地的人群,社會學(xué)家可以使用標準差來描繪社會群體的總體和特征,例如人口數(shù)量、人口密度和 人口增長率 等。
教育學(xué) 在教育研究中,標準差可以幫助教育人員和社會學(xué)家了解學(xué)生某一領(lǐng)域的學(xué)術(shù)成績的分布情況,例如學(xué)生的考試成績等。同時,可以通過計算標準差來評估學(xué)生之間的差異以及學(xué)生在不同領(lǐng)域的學(xué)術(shù)表現(xiàn)的波動情況。
心理學(xué) 在心理學(xué)領(lǐng)域,標準差可以被用來研究人群或者一組數(shù)據(jù)中領(lǐng)域間的變異程度。例如,測試心理健康的量表可以用標準差來描述被試者之間的差異程度。
社會調(diào)查分析 在社會調(diào)查分析中,標準差可以用來描繪社會調(diào)研數(shù)據(jù)的差異和波動情況,可以幫助設(shè)計合適的調(diào)研問卷和分析數(shù)據(jù)。通過調(diào)研數(shù)據(jù)的標準差,研究者能夠更好地理解數(shù)據(jù)背后的含義,深入分析調(diào)研的結(jié)果和趨勢,為政策制定和決策提供數(shù)據(jù)支持。
醫(yī)學(xué) 在醫(yī)學(xué)領(lǐng)域,標準差也被廣泛應(yīng)用于不同醫(yī)療領(lǐng)域的統(tǒng)計計算和數(shù)據(jù)分析方面。
臨床試驗 在設(shè)計和分析臨床試驗時,標準差是必不可少的一個統(tǒng)計量。標準差可以幫助研究人員確定試驗的樣本量、預(yù)測試驗結(jié)果和確定試驗數(shù)據(jù)的可靠性,有效地評估藥物和治療方法的有效性和安全性。
流行病學(xué) 標準差在 流行病學(xué)調(diào)查 和數(shù)據(jù)分析中也是一個非常有用的工具。通過計算標準差,可以評估流行病學(xué)調(diào)查數(shù)據(jù)的差異,檢查研究的數(shù)據(jù)是否符合正態(tài)分布曲線,提高流行病學(xué)研究的可靠性和改善公共衛(wèi)生政策,同時還可以用于制定醫(yī)學(xué)預(yù)算和數(shù)據(jù)管理。
醫(yī)療數(shù)據(jù)分析 在醫(yī)療數(shù)據(jù)分析中,標準差可以用于評估醫(yī)療數(shù)據(jù)集的變異程度。例如,醫(yī)生可以比較某一患者的生命體征(如心率、呼吸率、體溫等)與同齡、同性別、同體型健康人群的平均值以及標準差,判斷該患者所表現(xiàn)出來的生命體征是否異常。 如果該姑娘體溫偏高,但其仍在其年齡、同性別人群體溫的1個標準偏差內(nèi),那么該體溫異常就不太可能是真正的健康問題。
物理學(xué) 在物理領(lǐng)域,標準差也有著廣泛的應(yīng)用,特別是在實驗測量和數(shù)據(jù)處理中。
實驗測量誤差的評估 在實驗室中,物理學(xué)家通常需要進行各種類型的測量,比如測量物理量的大小、重量、溫度等,并通過實驗數(shù)據(jù)來驗證理論模型。由于測量設(shè)備的精度和操作人員的技術(shù)水平等因素,每個測量結(jié)果都可能帶有一定誤差。為了衡量這種誤差,物理學(xué)家通常使用標準差來評估測量數(shù)據(jù)的離散程度,以確定實驗數(shù)據(jù)是否符合預(yù)期。如果標準差比較小,表明測量誤差較小,實驗數(shù)據(jù)比較可靠。
物理量的不確定度計算 在物理學(xué)中,很多物理量的大小可以通過測量或計算得到。由于測量誤差和測量設(shè)備導(dǎo)致的精度限制等因素的存在,這些物理量都帶有一定的不確定度。物理學(xué)家通常使用標準差來計算這些物理量的不確定度,進而評估測量數(shù)據(jù)的合理性和可靠性。
數(shù)據(jù)分布的分析 在物理學(xué)中,物理學(xué)家通常需要對一些物理量的分布進行分析,以確定其性質(zhì)和規(guī)律。 例如,對于一組時間數(shù)據(jù),物理學(xué)家可以使用標準差來計算數(shù)據(jù)的離散程度和分布的形狀,進而確定數(shù)據(jù)分布是正態(tài)分布還是非正態(tài)分布。在實際研究中,這種分布分析對于確定物理定律或預(yù)測自然現(xiàn)象的發(fā)展趨勢等方面是非常重要的。
實驗數(shù)據(jù)可視化 在物理學(xué)領(lǐng)域,可視化是一個非常重要的方法,可以幫助物理學(xué)家更好地理解數(shù)據(jù)。通過將實驗數(shù)據(jù)繪制成柱狀圖、直方圖或散點圖等圖形化形式,結(jié)合標準差等指標進行分析,可以直觀地展現(xiàn)數(shù)據(jù)的分布情況和趨勢,更容易發(fā)現(xiàn)數(shù)據(jù)中存在的規(guī)律和異常。
工程學(xué) 在工程領(lǐng)域中,標準差用于描述數(shù)據(jù)的方差和波動情況,從產(chǎn)品設(shè)計到質(zhì)量控制、風(fēng)險管理、實驗分析等各個方面,都具有重要的作用。同時,標準差也能衡量產(chǎn)品的生產(chǎn)過程的穩(wěn)定性,判斷產(chǎn)品是否符合規(guī)格要求。 下圖就是一個工程測試數(shù)據(jù)例。
NO.
測試前
測試后
差異
測試前
測試后
差異
測試前
測試后
差異
1
93.0
94.0
-1.0
62.1
63.5
-1.4
39.0
40.0
-1.0
2
94.0
93.0
1.0
65.0
62.9
2.1
40.0
41.0
-1.0
3
93.0
94.0
-1.0
66.2
64.1
2.1
41.0
39.0
2.0
4
93.0
93.0
0.0
66.5
65.2
1.3
39.0
40.0
-1.0
5
94.0
93.0
1.0
62.2
63.2
-1.0
40.0
41.0
-1.0
6
93.0
94.0
-1.0
63.5
65.4
-1.9
39.0
40.0
-1.0
7
96.0
95.0
1.0
66.2
67.9
-1.7
40.0
39.0
1.0
8
95.0
94.0
1.0
64.8
67.1
-2.3
41.0
40.0
1.0
9
94.0
95.0
-1.0
65.3
63.2
2.1
41.0
39.0
2.0
10
94.0
93.0
1.0
64.3
66.5
-2.2
40.0
41.0
-1.0
最大
96.0
95.0
1.0
66.5
67.9
2.1
41.0
41.0
2.0
最小
93.0
93.0
-1.0
62.1
62.9
-2.3
39.0
39.0
-1.0
平均
94.0
93.8
0.1
64.6
65.0
-0.3
40.0
40.0
0.1
標準差
1.1
0.8
1.0
1.6
1.9
1.9
0.8
0.8
1.3
風(fēng)險管理 標準差在工程領(lǐng)域被廣泛地運用于風(fēng)險管理以及工程設(shè)計中。通過計算出項目中各種風(fēng)險的標準差,工程師可以確定在各種情況下的風(fēng)險預(yù)期波動值,并找到最好的可能性。此外,在設(shè)計階段,標準差可以幫助工程人員確定潛在的影響范圍,制定合理的設(shè)計方案,從而降低風(fēng)險和損失。
統(tǒng)計分析 在實驗和測試階段,標準差可以被用來評估數(shù)據(jù)的可重復(fù)性和一致性。通過評估標準差的大小,工程人員可以決定是否需要采取更多的測試措施,以達成更準確和可信的結(jié)果。
標準差的這些實際應(yīng)用領(lǐng)域,其本質(zhì)都是基于統(tǒng)計學(xué),統(tǒng)計學(xué)還包括了假設(shè)檢驗、方差分析、回歸分析和時間序列分析等針對實際問題的技術(shù)和建模方法 。標準差則是這些方法的基本工具之一,用于檢測數(shù)據(jù)的偏差和分析數(shù)據(jù)的波動性。標準差既能作為協(xié)變量,也可以用于估計模型中的誤差項等,它在統(tǒng)計學(xué)中無處不在和非常重要。
發(fā)展趨勢 近年來新的統(tǒng)計學(xué)方法不斷涌現(xiàn),但標準差在統(tǒng)計學(xué)中的地位和重要性仍然不可撼動。
數(shù)據(jù)科學(xué)和人工智能 標準差是評估機器學(xué)習(xí)模型質(zhì)量的一種重要指標,可以衡量模型對數(shù)據(jù)的擬合程度和泛化能力。未來標準差在數(shù)據(jù)科學(xué)和人工智能領(lǐng)域的應(yīng)用將越來越廣泛。
大數(shù)據(jù) 大數(shù)據(jù)分析越來越重視樣本量的大小,標準差可以作為評估樣本總體偏差和離散程度的重要指標,可以更好地分析和解釋數(shù)據(jù)集中數(shù)據(jù)的分布形態(tài)。
數(shù)據(jù)可視化 標準差也可以用來輔助數(shù)據(jù)可視化,通過繪制標準差的 誤差棒 圖,可以更直觀地展示樣本均值和標準差的變化趨勢。