一、樣本與總體
前面已提及,醫(yī)學(xué)研究中實(shí)際觀測(cè)或調(diào)查的一部分個(gè)體稱為樣本,研究對(duì)象的全部稱為總體。如作水質(zhì)檢驗(yàn)時(shí)從井水或河水中采的水樣,臨床化驗(yàn)中從病人身上采的血液或其它活體組織標(biāo)本,是樣本;而整個(gè)一口井或一條河的某一段所有的水,某病人全身所有的血液或某個(gè)組織器官,則是總體。這類總體是具體存在的,但另有些總體卻是假想的,只是理論上存在的一個(gè)范圍。例如試驗(yàn)?zāi)骋恢委熈鞲行滤幍寞熜В畛踅邮苤委煹囊慌鞲谢颊,不論?shù)量多少,都只是一個(gè)樣本。若該藥療效得到肯定,從而加以推廣,那么此后凡在相同條件下接受該藥治療的所有流感患者,都屬于這個(gè)總體?墒钱(dāng)初試用時(shí),這個(gè)總體還并不存在,是假想的。
總體包含的觀察單位通常是大量的甚至是無(wú)限的,在實(shí)際工作中,一般不可能或不必要對(duì)每個(gè)觀察單位逐一進(jìn)行研究。我們只能從中抽取一部分觀察單位加以實(shí)際觀察或調(diào)查研究,根據(jù)對(duì)這一部分觀察單位的觀察研究結(jié)果,再去推論和估計(jì)總體情況。如上述某新藥治療流感例子,試驗(yàn)治療的只是少數(shù)有限的病人,而結(jié)論卻要推廣到全體,得出一個(gè)該藥對(duì)所有流感患者之療效的規(guī)律性的認(rèn)識(shí)。所以說(shuō),觀察樣本的目的在于推論總體,這就是樣本與總體的辯證關(guān)系。
為了使樣本能夠正確反映總體情況,對(duì)總體要有明確的規(guī)定;總體內(nèi)所有觀察單位必須是同質(zhì)的;在抽取樣本的過(guò)程中,必須遵守隨機(jī)化原則;樣本的觀察單位還要有足夠的數(shù)量。
二、概率
又稱機(jī)率,是用以描述某事件發(fā)生的可能性大小的一個(gè)數(shù)值。
在自然界和人類社會(huì)中,存在著兩類不同的現(xiàn)象:①在一定條件下,肯定發(fā)生的事件叫做必然事件,肯定不發(fā)生的事件叫做不可能事件。如在適當(dāng)溫度濕度下經(jīng)一定時(shí)間孵化,正常受精雞蛋必然會(huì)孵出小雞來(lái),而石頭是不可能孵出小雞來(lái)的。必然事件與不可能事件雖然形式相反,但兩者在發(fā)生某種結(jié)果與否都是確定的,故統(tǒng)稱確定性現(xiàn)象。②在基本條件不變的情況下,可能發(fā)生的結(jié)果有多種,究竟發(fā)生哪種結(jié)果,事先不能肯定,這類現(xiàn)象叫做隨機(jī)現(xiàn)象。隨機(jī)現(xiàn)象的表現(xiàn)結(jié)果稱為隨機(jī)事件。如任意拋擲一枚硬幣,可能徽花向上也可能幣值向上,拋擲前不能肯定,這是一個(gè)隨機(jī)現(xiàn)象,而結(jié)果出現(xiàn)“徵花向上”則是一個(gè)隨機(jī)事件。
。ㄒ)古典概率 是最簡(jiǎn)單的隨機(jī)現(xiàn)象的概率計(jì)算。這類隨機(jī)現(xiàn)象具有兩個(gè)特征:①在觀察或試驗(yàn)中它的全部可能結(jié)果只有有限個(gè),譬如為n個(gè),記為E1,E2,…,En,而且這些事件是兩兩互不相容的,即任何兩個(gè)事件不能同時(shí)發(fā)生;②事件E1,E2,…,En的發(fā)生或出現(xiàn)是等可能的,即它們發(fā)生的概率都一樣。古典概率的大部分問(wèn)題都能形象地用摸球模型來(lái)描述。有利于直觀地理解概率論的許多基本概念;而且它有著多方面的重要應(yīng)用,例如工業(yè)產(chǎn)品的抽樣檢查等。
(二)統(tǒng)計(jì)概率 上述“事件”是指不能再進(jìn)行分解或不能由其它事件構(gòu)成的基本事件。在實(shí)際工作中,基本事件的發(fā)生并不總是等可能的,而且有時(shí)為無(wú)窮多個(gè)。這樣就有必要把古典概率的定義加以推廣,從事后經(jīng)驗(yàn)的角度來(lái)理解概率的意義。實(shí)踐證明,雖然個(gè)別隨機(jī)事件在某次試驗(yàn)或觀察中可以出現(xiàn)也可以不出現(xiàn),但在大量重復(fù)試驗(yàn)中它卻呈現(xiàn)出明顯的規(guī)律性。假設(shè)在相同條件下,獨(dú)立地重復(fù)做n次試驗(yàn),某隨機(jī)事件A在n次試驗(yàn)中出現(xiàn)了m次,則比值m/n稱為隨機(jī)事件A在n次試驗(yàn)中出現(xiàn)的頻率。當(dāng)試驗(yàn)重復(fù)很多次時(shí),隨機(jī)事件A的頻率m/n就會(huì)在某個(gè)固定的常數(shù)P附近擺動(dòng),而且n愈大擺動(dòng)的幅度愈小。這種規(guī)律性稱之為統(tǒng)計(jì)規(guī)律性。頻率的穩(wěn)定性說(shuō)明隨機(jī)事件發(fā)生的可能性大小是隨機(jī)事件本身固有的、不隨人們意志為轉(zhuǎn)移的客觀屬性,所以在醫(yī)學(xué)科研中,當(dāng)n充分大時(shí),就以頻率作為概率的近似值,記住P(A)即
由此可見(jiàn),頻率是就樣本而言的,而概率總是從總體的意義上說(shuō)的。這樣,概率就為預(yù)計(jì)某一事件發(fā)生的可能性大小,提供了衡量的尺度。
例如:某病患者40名,用某療法治療后,其中35人痊愈,治愈者占治療人數(shù)的35/40,這是頻率。因?yàn)閿?shù)量少,這個(gè)頻率可能波動(dòng)較大。假如經(jīng)過(guò)長(zhǎng)期的大量觀察,比如數(shù)百、數(shù)千例,得到治愈率為70%,我們就可以說(shuō),該療法治愈某病的概率近似值為70%。
又如:某院婦產(chǎn)科在一個(gè)月內(nèi)出生嬰兒30名,其中男嬰18名,占新生兒數(shù)的18/30,這叫頻率。大量統(tǒng)計(jì)表明,人口中男女的比例基本上是1:1。這是個(gè)較穩(wěn)定的常數(shù),即概率的近似值。于是,在嬰兒分娩前,我們就可用它作為尺度,預(yù)計(jì)是男的概率為1/2(0.5或50%),是女的概率也為1/2(0.5或50%)。
通過(guò)以上討論,可以知道:如果某事件是必然事件,則有m=n,所以必然事件的概率等于1;如果某事件是不可能事件,則有m=0,所以不可能事件的概率等于0;如果某事件是隨機(jī)事件,則有0 三、隨機(jī)變量 簡(jiǎn)單地說(shuō),是指隨機(jī)事件的數(shù)量表現(xiàn)。例如一批注入某種毒物的動(dòng)物,在一定時(shí)間內(nèi)死亡的只數(shù);某地若干名男性健康成人中,每人血紅蛋白量的測(cè)定值;等等。另有一些現(xiàn)象并不直接表現(xiàn)為數(shù)量,例如人口的男女性別、試驗(yàn)結(jié)果的陽(yáng)性或陰性等,但我們可以規(guī)定男性為1,女性為0,則非數(shù)量標(biāo)志也可以用數(shù)量來(lái)表示。這些例子中所提到的量,盡管它們的具體內(nèi)容是各式各樣的,但從數(shù)學(xué)觀點(diǎn)來(lái)看,它們表現(xiàn)了同一種情況,這就是每個(gè)變量都可以隨機(jī)地取得不同的數(shù)值,而在進(jìn)行試驗(yàn)或測(cè)量之前,我們要預(yù)言這個(gè)變量將取得某個(gè)確定的數(shù)值是不可能的。 按照隨機(jī)變量可能取得的值,可以把它們分為兩種基本類型:①離散型隨機(jī)變量,即在一定區(qū)間內(nèi)變量取值為有限個(gè),或數(shù)值可以一一列舉出來(lái)。例如某地區(qū)某年人口的出生數(shù)、死亡數(shù),某藥治療某病病人的有效數(shù)、無(wú)效數(shù)等。②連續(xù)型隨機(jī)變量,即在一定區(qū)間內(nèi)變量取值有無(wú)限人,或數(shù)值無(wú)法一一列舉出來(lái)。例如某地區(qū)男性健康成人的身長(zhǎng)值、體重值,一批傳染性肝炎患者的血清轉(zhuǎn)氨酶測(cè)定值等。 四、誤差 誤差是指實(shí)際觀察值與客觀真值之差、樣本指標(biāo)與總體指標(biāo)之差。誤差可分為系統(tǒng)誤差和隨機(jī)誤差。 。ㄒ)系統(tǒng)誤差 在實(shí)際觀測(cè)過(guò)程中,由于儀器未校正、測(cè)量者感官的某種障礙、醫(yī)生掌握療效標(biāo)準(zhǔn)偏高或偏低等原因,使觀察值不是分散在真值兩側(cè),而是有方向性、系統(tǒng)性或周期性地偏離真值。這類誤差可以通過(guò)實(shí)驗(yàn)設(shè)計(jì)和技術(shù)措施來(lái)消除或使之減弱,但不能靠概率統(tǒng)計(jì)辦法來(lái)消除或減弱。 。ǘ)隨機(jī)誤差 或稱偶然誤差,是指排除了系統(tǒng)誤差后尚存的誤差。它受多種因素的影響,使觀察值不按方向性和系統(tǒng)性而隨機(jī)地變化。隨機(jī)誤差服從正態(tài)分布,可以用概率統(tǒng)計(jì)方法處理。 在隨機(jī)誤差中,最重要的是抽樣誤差。我們從同一總體中隨機(jī)抽取若干個(gè)大小相同的樣本,各樣本平均數(shù)(或率)之間會(huì)有所不同。這些樣本間的差異,同時(shí)反映了樣本與總體間的差異。它是由于從總體中抽取樣本才出現(xiàn)的誤差,統(tǒng)計(jì)上稱為抽樣誤差(或抽樣波動(dòng))。抽樣誤差在醫(yī)學(xué)生物實(shí)驗(yàn)中最主要的來(lái)源是個(gè)體的變異。所以這是一種難以控制的、不可避免的誤差。但抽樣誤差是有一定規(guī)律的。研究和運(yùn)用抽樣誤差的規(guī)律,是根據(jù)樣本估計(jì)總體時(shí)所必須領(lǐng)會(huì)的基本概念之一,也是醫(yī)學(xué)統(tǒng)計(jì)學(xué)的重要內(nèi)容之一。 隨機(jī)誤差中還包括重復(fù)誤差。它是由于對(duì)同一受試對(duì)象或檢樣采用同一方法重復(fù)測(cè)定時(shí)所出現(xiàn)的誤差。如用天平稱同一個(gè)燒杯的重量,重復(fù)測(cè)定多次,其結(jié)果會(huì)有某些波動(dòng)?刂浦貜(fù)誤差的手段主要是改進(jìn)測(cè)定方法,提高操作者的熟練程度。重復(fù)是摸清實(shí)驗(yàn)誤差大小的手段,以便分析和減少實(shí)驗(yàn)誤差。 五、假設(shè)檢驗(yàn) 亦稱顯著性檢驗(yàn),其基本原理是先對(duì)總體的特征作出某種假設(shè),然后通過(guò)抽樣研究的統(tǒng)計(jì)推理,對(duì)此假設(shè)應(yīng)該被拒絕還是接受作出推斷。 生物現(xiàn)象的個(gè)體差異是客觀存在,以致抽樣誤差不可避免,所以我們不能僅憑個(gè)別樣本的值來(lái)下結(jié)論。當(dāng)遇到兩個(gè)或幾個(gè)樣本均數(shù)(或率)、樣本均數(shù)(率)與已知總體均數(shù)(率)有大有小時(shí),應(yīng)當(dāng)考慮到造成這種差別的原因有兩種可能:一是這兩個(gè)或幾個(gè)樣本均數(shù)(或率)來(lái)自同一總體,其差別僅僅由于抽樣誤差即偶然性所造成;二是這兩個(gè)或幾個(gè)樣本均數(shù)(或率)來(lái)自不同的總體,即其差別不僅由抽樣誤差造成,而主要是由實(shí)驗(yàn)因素不同所引起的。假設(shè)檢驗(yàn)的目的就在于排除抽樣誤差的影響,區(qū)分差別在統(tǒng)計(jì)上是否成立,并了解事件發(fā)生的概率。 進(jìn)行假設(shè)檢驗(yàn)時(shí),要先建立檢驗(yàn)假設(shè)(即上述第一種可能,符號(hào)是H0)與備擇假設(shè)(即上述第二種可能,符號(hào)是H1),確立檢驗(yàn)水準(zhǔn)(當(dāng)檢驗(yàn)假設(shè)為真,但被錯(cuò)誤地拒絕的概率,記作α),通常取α=0.05或α=0.01;然后由樣本觀察值按相應(yīng)的公式計(jì)算統(tǒng)計(jì)量,如X2值、t值等;最后查有關(guān)的統(tǒng)計(jì)用表確定P值范圍(有時(shí)也可直接計(jì)算P值)作出結(jié)論。若P>α,結(jié)論為按α所取水準(zhǔn)不顯著,不拒絕H0,即認(rèn)為差別很可能是由于抽樣誤差造成的,在統(tǒng)計(jì)上不成立;如果P≤α,結(jié)論為按所取α水準(zhǔn)顯著,拒絕H0,接受H1,則認(rèn)為此差別不大可能僅由抽樣誤差所致,很可能是實(shí)驗(yàn)因素不同造成的,故在統(tǒng)計(jì)上成立。