平均數(shù)是統(tǒng)計中應(yīng)用最廣泛、最重要的一個指標(biāo)體系。常用的有算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)三個指標(biāo)。它們用于描述一組同質(zhì)計量資料的集中趨勢或反映一組觀察值的平均水平。
一、算術(shù)均數(shù)(arithmetic mean)
簡稱對數(shù)(mean)。習(xí)慣上以表示樣本均數(shù),以希臘字母μ表示總體均數(shù)。均數(shù)適用于對稱分布,特別是正態(tài)或近似正態(tài)分布的計量資料,其計算方法有:
(一)直接法
當(dāng)樣本的觀察值個數(shù)不多時,將各觀察值X1,X2,……,Xn相加再除以觀察值的個數(shù)n(樣本含量)即得均數(shù)。其公式為:
公式(18.1)
式中,希臘字母Σ(讀作sigma)是求和的符號。
例18.1 某地11名20歲健康男大學(xué)生身高(cm)分別為174.9,173.1, 171.8,179.0,173.9,172.7,166.2,170.8,171.8,172.1,168.5。試計算其均數(shù)。
(二)加權(quán)法
當(dāng)觀察值個數(shù)較多時,可先將各觀察值分組歸納成頻數(shù)表,用加權(quán)法求均數(shù)。其計算步驟如例18.2。
例18.2 某地1993年隨機(jī)測量了該地110名20歲健康男大學(xué)生的身高(cm),資料如下,試計算其均數(shù)。
173.9 | 173.9 | 166.9 | 179.5 | 171.2 | 167.8 | 177.1 | 174.7 | 173.8 | 182.5 |
173.6 | 165.8 | 168.7 | 173.6 | 173.7 | 177.8 | 180.3 | 173.1 | 173.0 | 172.6 |
173.6 | 175.3 | 178.4 | 181.5 | 170.5 | 176.4 | 170.8 | 171.8 | 180.7 | 170.7 |
173.8 | 164.4 | 170.0 | 175.0 | 177.7 | 171.4 | 162.9 | 179.0 | 174.9 | 178.3 |
174.5 | 174.3 | 170.4 | 173.2 | 174.5 | 173.7 | 173.4 | 173.9 | 172.9 | 177.9 |
168.3 | 175.0 | 172.1 | 166.9 | 172.7 | 172.2 | 168.0 | 172.7 | 172.3 | 175.2 |
171.9 | 168.6 | 167.6 | 169.1 | 166.8 | 172.0 | 168.4 | 166.2 | 172.8 | 166.1 |
173.5 | 168.6 | 172.4 | 175.7 | 178.8 | 169.1 | 175.5 | 170.3 | 171.7 | 164.6 |
171.2 | 169.1 | 170.7 | 173.6 | 167.2 | 170.7 | 174.7 | 171.8 | 167.3 | 174.8 |
168.5 | 178.7 | 177.3 | 165.9 | 174.0 | 170.2 | 169.5 | 172.1 | 178.2 | 170.9 |
171.3 | 176.1 | 169.7 | 177.9 | 171.1 | 179.3 | 183.5 | 168.5 | 175.5 | 175.9 |
1.編制頻數(shù)表
(1)求全距(range):找出觀察值中的最大值(183.5)和最小值(162.9),它們的差值即全距,常用R表示。本例R=20.6。
(2)定組距和組段:相鄰兩組的最小值之差稱組距,常用i表示,各組距可相等,也可不相等,一般用等距。常取全距的1/10,取整作組距。本例全距的1/10為2.06,取整為2,用等距共劃分11個組段。第一組段應(yīng)包括資料中最小值,最末組段應(yīng)包括最大值,一般要求組段的起點為較整齊的數(shù)。本例第一組段的起點(即下限)取162,其止點(即上限)為第二組段的起點即164,然后每一組距(本例為2)就成為一組段,最末組段應(yīng)同時寫出下限和上限,本例為182~184。
。3)列表劃記:按上述的組段序列排列制表,用正字劃記法將例18.2中的數(shù)據(jù)歸納到各組段中,最后清點出頻數(shù)得頻數(shù)表,表18-1中的第(2)、(3)欄。
表18-1 110名20歲健康男大學(xué)生身高(cm)的頻數(shù)分布
由頻數(shù)表的頻數(shù)分布可看出兩個重要特征:集中趨勢和離散趨勢。集中趨勢即頻數(shù)分布向中央部分集中;離散趨勢即頻數(shù)分布由中央到兩側(cè)逐漸減少。頻數(shù)分布可為①對稱分布或近似正態(tài)分布,即集中位置在正中,兩側(cè)頻數(shù)分布大致對稱,如表18-1;②偏態(tài)分布,即集中位置偏向一側(cè),頻數(shù)分布不對稱,若集中位置偏向數(shù)值小的一側(cè),為正偏態(tài)分布;若集中位置偏向數(shù)值大的一側(cè),為負(fù)偏態(tài)分布。不同類型的分布,應(yīng)采用相應(yīng)描述指標(biāo)和統(tǒng)計分析方法。
2.計算公式
公式(18.2)
式中,k為組段數(shù);f1,f2,……,fk分別為各組段的頻數(shù);X1,X2,……,Xk分別為各組段的組中值,組中值為本組段的下限與相鄰較大組段的下限相加除以2,如“162-”組段的組中值X1=(162+164)/2=163,余仿此。
3.列計算表(表18-2)計算均數(shù)
110名20歲健康男大學(xué)生身主的均數(shù)為172.73(cm)。
二、幾何均數(shù)(geometric mean)
用G表示。常用于等比級數(shù)資料和對數(shù)對稱分布,尤其是對數(shù)正態(tài)分布的計量資料。對數(shù)正態(tài)分布即原始數(shù)據(jù)呈偏態(tài)分布,經(jīng)對數(shù)變換后(用原始數(shù)據(jù)的對數(shù)值lgX代替X)服從正態(tài)分布。其計算方法有:
表18-2 110名20歲健康男大學(xué)生身高(cm)均數(shù)的計算表(加權(quán)法)
身高級段
(1) |
組中值X
(2) |
頻數(shù)f
(3) |
FX
(4)=(2)×(3) |
162~ | 163 | 1 | 163 |
164~ | 165 | 4 | 660 |
166~ | 167 | 9 | 1503 |
168~ | 169 | 13 | 2197 |
170~ | 171 | 19 | 3249 |
172~ | 173 | 27 | 4671 |
174~ | 175 | 16 | 2800 |
176~ | 177 | 8 | 1416 |
178~ | 179 | 8 | 1432 |
180~ | 181 | 3 | 543 |
182~184 | 183 | 2 | 366 |
合計 | 110(Σf) | 19000(ΣfX) |
(一)直接法
當(dāng)觀察值個數(shù)n不多時,直接將n個觀察值(X1,X2,……Xn)的乘積開n次方。其計算公式為:
公式(18.3)
其對數(shù)形式:
公式(18.4)
例18.3 設(shè)有6份血清的抗體效價為1:10,1:20,1:40,1:80,1:80,1:160。求其平均效價。
本例可將各抗體效價的倒數(shù)代入公式(18.4),求平均效價數(shù)的倒數(shù)。
該6份血清的平均抗體效價為1:45。
(二)加權(quán)法
當(dāng)觀察值個數(shù)n較多時,先將觀察值分組歸納成頻數(shù)表,再用公式(18.5)計算。
公式(18.5)
式中,X為各組段的效價或滴度的倒數(shù)(等比級數(shù)資料時)或各組段的組中值(對數(shù)正態(tài)分布資料時);f 為各組段所對應(yīng)頻數(shù)。
例18.430名麻疹易感兒童接種麻疹疫苗一個月后,血凝抑制抗體滴度如表18-3第(1)、(2)欄,試求其平均抗體滴度。
30名麻疹易感兒童免疫后的平均血凝抑制滴度為1:48.5。
三、中位數(shù)(median)
中位數(shù)是一組按大小順序排列的觀察值中位次居中的數(shù)值,用M表示。它常用于描述偏態(tài)分布資料的集中趨勢。中位數(shù)不受個別特小或特大觀察值的影響,特別是分布末端無確定數(shù)據(jù)不能求均數(shù)和幾何均數(shù),但可求中位數(shù)。計算方法有:
表18-3 平均抗體滴度計算表
抗體滴度(1) | 人數(shù)f(2) | 滴度倒數(shù)X(3) | lgX(4) | flgX(5)=(2)×(4) |
1:8 | 2 | 8 | 0.9031 | 1.8062 |
1:16 | 6 | 16 | 1.2041 | 7.2246 |
1:32 | 5 | 32 | 1.5051 | 7.5255 |
1:64 | 10 | 64 | 1.8062 | 18.0620 |
1:128 | 4 | 128 | 2.1072 | 8.4288 |
1:256 | 2 | 256 | 2.4082 | 4.8164 |
1:512 | 1 | 512 | 2.7093 | 2.7093 |
合計 | 30(Σf) | 50.5728(ΣflgX) |
(一)直接法
當(dāng)n較小時,可直接由原始數(shù)據(jù)求中位數(shù)。先將觀察值由小到大按順序排列,再按公式(18.6)或公式(18.7)計算。
公式(18.6)
(n為偶數(shù)時) 公式(18.7)
式中,n 為觀察值的總個數(shù),X的右下標(biāo)(n+1/2)、(n/2)、和(n/2+1)為有序數(shù)列中觀察值的位次,X(n+1/2)、X(n/2)和X(n/2+1)為相應(yīng)位次上的觀察值。
例18.5 某病患者9名,其發(fā)病的潛伏期順序為2,3,3,3,4,5,6,9,16天,求中位數(shù)。
本例n=9,為奇數(shù),按公式(18.6)計算
若上例在第20天又發(fā)現(xiàn)一例患者,則患者數(shù)增為10名,n為偶數(shù),按公式(18.7)計算
。ǘ)頻數(shù)表法
當(dāng)n較大時,先將觀察值分組歸納成頻數(shù)表,再按組段由小到大計算累計頻數(shù)和累計頻率。如表18-4中的(3)、(4)兩欄,然后按公式(18.8)計算。
公式(18.8)
式中,L為中位數(shù)(即累計頻率為50%)所在組段的下限;i為該組段的組距;f為該組段的頻數(shù);ΣfL為小于L的各組段的累計頻數(shù);n為總例數(shù)。
例18.6 求表18-4中數(shù)據(jù)的中位數(shù)
表18-4 164名食物中毒潛伏期的中位數(shù)和百分位數(shù)*計算表
潛伏期(小時 )
(1) |
人數(shù)f
(2) |
累計頻數(shù)(Σf)
(3) |
累計頻率(%)
(4) |
0~ | 25 | 25 | 15.2 |
12~ | 58 | 83 | 50.6 |
24~ | 40 | 123 | 75.0 |
36~ | 23 | 146 | 89.0 |
48~ | 12 | 158 | 96.3 |
60~ | 5 | 163 | 99.4 |
72~84 | 1 | 164 | 100.0 |
*百分位數(shù)的意義與計算見后面的[附].
由表18-4可見,50%在“12~”組段內(nèi),則L=12,i=12,f=58,ΣfL=25,n=164,按式(18.8)計算
M=L+i/f(n/2-ΣfL)=12+12/58(164/2-25)=23.8(小時)
[附]百分位數(shù):百分位數(shù)是一個位置指標(biāo),用Px表示。當(dāng)P1,P2,……,P98,P99確定后,一個由小到大的有序數(shù)列即被分為100等份,各含1%的觀察值。百分位數(shù)常用于描述一組偏態(tài)分布資料在某百分位置上的水平及確定偏態(tài)分布資料的醫(yī)學(xué)正常值范圍。第50百分位數(shù)(P50)也就是中位數(shù),所以,中位數(shù)也是一個特定的百分位數(shù)。計算百分位數(shù)用公式(18.9)
Px=L+i/fx(n.x%-ΣfL)公式(18.9)
式中,L、i、fx分別為Px所在組段的下限、組距和頻數(shù);ΣfL為小于L的各級段的累計頻數(shù)。
例18.7 求表18-4中數(shù)據(jù)的P95。
求P95時,x=95,即累計頻率為95%所在組段。本例為“48~”組段,則L=48,i=12,fx=12,ΣfL=146,n=164,代入公式(18.9)
P95=48+12/12(164×95%-146)=57.8(小時)