公務(wù)員期刊網(wǎng) 論文中心 正文

醫(yī)學(xué)期刊統(tǒng)計學(xué)錯誤研究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了醫(yī)學(xué)期刊統(tǒng)計學(xué)錯誤研究范文,希望能給你帶來靈感和參考,敬請閱讀。

醫(yī)學(xué)期刊統(tǒng)計學(xué)錯誤研究

1統(tǒng)計設(shè)計存在的常見問題

統(tǒng)計設(shè)計是整個研究中最重要的一環(huán),是研究工作應(yīng)遵循的依據(jù)。常見的統(tǒng)計設(shè)計問題有:忽視組間均衡性,樣本缺乏代表性,樣本例數(shù)不足,未設(shè)置對照組,未隨機分組,未提出統(tǒng)計分析方法等。針對以上問題,在科研設(shè)計中一定要遵循實驗設(shè)計的四大原則即“隨機、對照、均衡、重復(fù)”的原則[6]。

1.1不遵循或不重視隨機化原則

隨機化是科研設(shè)計的重要原則,直接影響研究結(jié)果的可信度。隨機化既要隨機抽樣,還要隨機分組,并有足夠的樣本量作前提。然而,在醫(yī)學(xué)論文中許多作者對此不夠重視,主要表現(xiàn)在論文中統(tǒng)計處理隨機化不突出,隨機化缺失情況比較常見,有的論文甚至將隨機誤解為隨意、隨便,不采用隨機化處理方法,導(dǎo)致結(jié)果缺乏可靠性。還有些文章中沒有提出“隨機”抽樣的設(shè)計與方法,沒有排除標(biāo)準(zhǔn),給人隨意選擇病例之感,且病例數(shù)少,因此沒有代表性,所得出的結(jié)論不可靠。部分文章雖然注明了“隨機”,但未提及采取什么方法進行隨機化研究或兩組間的例數(shù)相差甚遠,不符合隨機化的一般規(guī)律,沒有臨床參考價值[7]。

1.2缺少對照研究或?qū)φ战M設(shè)計不合理

正確設(shè)立對照是臨床或?qū)嶒炑芯康囊粋€核心問題,設(shè)立對照的意義在于說明臨床試驗或?qū)嶒炑芯恐懈深A(yù)措施的效應(yīng),減少或防止偏倚和機遇產(chǎn)生的誤差對試驗結(jié)果的影響。目前,國內(nèi)許多期刊發(fā)表的論文對照組設(shè)計不合理現(xiàn)象比較普遍,尤其有些作者對某種新藥或新技術(shù)在臨床的應(yīng)用觀察研究中,不設(shè)對照組,缺乏對照觀察,得出的結(jié)論缺乏科學(xué)性,令人懷疑。有的文章雖然設(shè)立了對照組,但在分析結(jié)果時,卻沒有將試驗組與對照組的結(jié)果進行比較,而僅將各組間的自身前后進行比較,從而使該研究失去對照意義。對照組選擇不當(dāng),還表現(xiàn)在兩組間重要的臨床特征和基線情況相差太大,無可比性,如性別、年齡、病情、經(jīng)濟情況和文化程度等不一致,如有些論文將健康人或志愿者作為對照組,使結(jié)果受到非處理因素的影響,產(chǎn)生偏倚或系統(tǒng)誤差,使結(jié)論不可信[7]。

1.3均衡性原則掌握不夠

均衡性原則要求實驗中的各組之間除處理因素不同外,其他可控制的非處理因素要盡可能保持一致。特別對疾病預(yù)后有重要影響的臨床特性一定要在組間分布均衡。各組間越均衡,可比性越強。有些作者在對病例進行分組時,忽視了均衡性原則,兩組之間沒有可比性,結(jié)論自然是錯誤的。具體表現(xiàn)在:有的文章對治療組與對照組的相應(yīng)統(tǒng)一指標(biāo)沒有設(shè)在均衡的水平上。對治療組情況交代的比較詳細,而對對照組的年齡、性別、病情等不予交代,或所選對照組的年齡與治療組不在一個年齡段,影響了作者對指標(biāo)的觀察[7]。

1.4重復(fù)的原則掌握不好

所謂重復(fù),一是指重復(fù)試驗或平行試驗,二是指各樣本組的例數(shù)要有一定的數(shù)量,即樣本的例數(shù)要足夠大。雖然隨機化是增強非處理因素均衡性的重要方法,但當(dāng)各組內(nèi)例數(shù)過少時,盡管采用了隨機化分組的方法,也難以保證非處理因素的均衡一致。在隨機化分組的基礎(chǔ)上,只有樣本例數(shù)足夠大,才能使非處理因素均衡一致,同時也才能使抽樣誤差減小,增強樣本對總體的代表性。一般來說,在隨機分組的前提下,樣本例數(shù)越大,各組之間非處理因素的均衡性越好;但當(dāng)樣本量太大時,往往又會給整個實驗和質(zhì)量控制工作帶來更多的困難,同時也會造成浪費。為此,在實驗設(shè)計時,還應(yīng)保證在實驗結(jié)果具有一定可靠性的前提下,確定最少的樣本例數(shù)。一般說來,計數(shù)指標(biāo)每組樣本不得少于20~30例,計量指標(biāo)每組樣本不得少于5~10例。在多因素分析時,一般認(rèn)為樣本例數(shù)至少為觀察指標(biāo)的5~10倍[8]。

1.5樣本的含量

樣本的含量的大小直接影響到結(jié)論的可靠性。樣本量過少,則抽樣誤差大,結(jié)果可靠性差,且經(jīng)不起重復(fù)驗證;反之,盲目加大樣本量也會造成人、財、物的浪費,同時也造成非抽樣誤差增大。故應(yīng)在保證研究結(jié)果精確可靠的前提下,確定最小的樣本量。如某篇論文報道某藥治療的臨床療效,實際總例數(shù)為10例,其中6例有效,于是作者得出有效率為60%。顯然,有限的病例數(shù)不能充分說明該藥是否有效,作者貿(mào)然得出結(jié)論,容易給他人造成假象甚至誤導(dǎo)[9]。

2統(tǒng)計方法選擇與使用不當(dāng)

在選擇統(tǒng)計方法之前,首先應(yīng)確定研究資料是計數(shù)資料還是計量資料。只劃分其類別而得到的資料為計數(shù)資料,也叫定性資料,如根據(jù)治療結(jié)果計算出的治愈率、陰性率、陽性率等。測定某個具體數(shù)值而得到的資料為計量資料,如血壓值、血細胞計數(shù)、血氧分壓測定等許多物理診斷和化驗檢查的結(jié)果。目前,醫(yī)學(xué)論文中計數(shù)資料最常用的統(tǒng)計方法為χ2檢驗,計量資料最常用的統(tǒng)計方法為t檢驗。值得注意的是,各種假設(shè)檢驗方法均有其適用條件,應(yīng)根據(jù)資料特點來選用最適當(dāng)?shù)姆椒?。均?shù)與標(biāo)準(zhǔn)差分別是描述正態(tài)分布資料集中和離散趨勢的指標(biāo)。能否選用“均數(shù)±標(biāo)準(zhǔn)差”來描述某一資料的分布特征,關(guān)鍵看該資料是否符合正態(tài)分布。當(dāng)資料不符合正態(tài)分布或方差不齊時,應(yīng)將資料轉(zhuǎn)換使之符合正態(tài)分布,方差齊性后再用t檢驗或方差分析,否則用秩和檢驗。有些作者在使用t檢驗時,未考慮到上述適用條件而盲目使用,造成統(tǒng)計學(xué)處理不當(dāng)或統(tǒng)計學(xué)計算錯誤[10]。

2.1統(tǒng)計指標(biāo)應(yīng)用不當(dāng)

2.1.1描述計量資料的統(tǒng)計指標(biāo)描

述計量資料的統(tǒng)計指標(biāo)主要有平均數(shù)指標(biāo)(算術(shù)均數(shù)、中位數(shù)M等)和變異指標(biāo)(標(biāo)準(zhǔn)差s和四分位數(shù)間距Q等),在應(yīng)用時一定要注意它們各自的適用范圍。對于非對稱分布資料,算術(shù)均數(shù)不能反映數(shù)據(jù)的平均水平,應(yīng)采用中位數(shù)描述。一般地,正態(tài)資料或?qū)ΨQ資料用描述,偏態(tài)資料用M和Q來描述。在不能確定數(shù)據(jù)的分布類型時,應(yīng)選用M和Q進行統(tǒng)計描述。四分位數(shù)間距Q是75%分位數(shù)P75和25%分位數(shù)P25之差,即Q=P75-P25,所謂百分位數(shù)Px是將全部觀察值分為兩部分,理論上x%的觀察值比它小,(100-x)%的觀察值比它大,中位數(shù)M是50%分位數(shù)P50。、s、M、Px與Q可通過統(tǒng)計軟件直接輸出[9]。

2.1.2描述計數(shù)資料的統(tǒng)計指標(biāo)描

述計數(shù)資料的統(tǒng)計指標(biāo)有絕對數(shù)和相對數(shù)。絕對數(shù)是原始資料經(jīng)匯總得到的小計或總計數(shù)。相對數(shù)是兩個有關(guān)的絕對數(shù)之比,主要包括率和構(gòu)成比(百分比)。醫(yī)學(xué)論文中相對數(shù)應(yīng)用的主要問題之一是分母較小。分母較小時,相對數(shù)的可靠性不能保證,在這種情況下,宜直接用絕對數(shù)進行描述而不宜計算相對數(shù)。醫(yī)學(xué)論文中相對數(shù)應(yīng)用的主要問題之二是將構(gòu)成比誤用來說明事物發(fā)生的強度。構(gòu)成比只能反映事物的內(nèi)部構(gòu)成,不能說明事物的發(fā)生強度。醫(yī)學(xué)的研究對象主要是人以及與人體有關(guān)的各種因素。由于生物現(xiàn)象的變異較大,各種影響因素又錯綜復(fù)雜,研究常是抽樣觀察,使事物本質(zhì)差異與抽樣誤差混雜,故需用統(tǒng)計方法透過偶然現(xiàn)象來探測其規(guī)律性。如果不能正確運用統(tǒng)計學(xué)方法,造成統(tǒng)計學(xué)上的偏差或失誤,就很容易把本來成功的結(jié)果當(dāng)成失敗而放棄,或把失敗的教訓(xùn)誤認(rèn)為成功的結(jié)論而加以宣傳。在進行科研設(shè)計時要嚴(yán)格遵循科學(xué)的統(tǒng)計學(xué)分析方法,不能留下隱患,否則,再高明的統(tǒng)計學(xué)專家和統(tǒng)計學(xué)軟件也無法彌補科研設(shè)計缺陷造成的損失??傊?統(tǒng)計學(xué)分析在醫(yī)學(xué)研究和論文寫作中意義重大。作者在撰寫論文時,應(yīng)注意識別、總結(jié)有代表性的、有借鑒意義的統(tǒng)計學(xué)領(lǐng)域的缺陷、失誤或錯誤的多發(fā)點,特別留心易出現(xiàn)統(tǒng)計錯誤的險區(qū),從而使論文中的統(tǒng)計學(xué)問題減到最低限度。認(rèn)真檢查、仔細核驗,盡量避免上述錯誤,必要時還可以請統(tǒng)計學(xué)專家?guī)椭殃P(guān)[12]。

2.2統(tǒng)計方法描述或選擇不當(dāng)

統(tǒng)計方法選擇非常重要,它直接影響結(jié)論的可靠性[12]。臨床資料的結(jié)果變量可分為計數(shù)資料、計量資料和等級資料。計數(shù)資料指將觀察對象按兩種屬性分類,如生存、死亡,治愈、未治愈,有效、無效等,通常轉(zhuǎn)化為率。如果是兩組間的比較,則采用四格表χ2檢驗或其校正公式,如果是多組間率的比較,則采用行×列表資料χ2檢驗。計量資料指對某一個研究對象用定量的方法測定某項指標(biāo)得到的資料,一般均有計量單位。通常資料呈正態(tài)分布時,兩組間均數(shù)比較用t檢驗,多組間均數(shù)比較用方差分析和q檢驗。當(dāng)資料不呈正態(tài)分布或方差不齊時,也可用秩和檢驗等非參數(shù)檢驗法。

2.2.1統(tǒng)計方法描述不清

醫(yī)學(xué)論文中??砂l(fā)現(xiàn)作者未交代所用的統(tǒng)計方法,如是配對設(shè)計的t檢驗還是成組設(shè)計的t檢驗,是Ridit分析還是χ2檢驗,是作相關(guān)分析還是作回歸推斷。統(tǒng)計方法交代不清或根本不予交代,使讀者對論文結(jié)論的正確與否無法判斷。有的作者只提一句“經(jīng)統(tǒng)計學(xué)處理”后,就寫出結(jié)論。有的甚至直接用P值說明問題,籠統(tǒng)地以P<0.05或0.01、P>0.05便稱結(jié)果差異有無顯著性,P值的大小不說明差值的大小,它還與抽樣誤差大小有關(guān)[13]。因此,還應(yīng)寫明具體的統(tǒng)計方法,如有特殊情況,還應(yīng)說明是否采用了校正,應(yīng)寫出描述性統(tǒng)計量的可信區(qū)間,注明精確的統(tǒng)計量值和P值,然后根據(jù)P值大小作出統(tǒng)計學(xué)推斷,并作出相應(yīng)的醫(yī)學(xué)專業(yè)結(jié)論。

2.2.2假設(shè)檢驗方法交代不清不交

代假設(shè)檢驗方法或假設(shè)檢驗方法交代的不具體、不清楚是醫(yī)學(xué)科研論文中常見的錯誤。如果不交代假設(shè)檢驗方法或假設(shè)檢驗方法交代的不具體,讀者就無法考察論文的統(tǒng)計學(xué)方法選擇的是否正確,無法核對計算結(jié)果是否準(zhǔn)確。每一種假設(shè)檢驗方法都有其特定的適應(yīng)條件和嚴(yán)格的適用范圍。對于同一組資料,采用不同的假設(shè)檢驗方法可能得出截然相反的結(jié)論。如將配對設(shè)計的資料按成組設(shè)計資料的方法處理,將會損失樣本提供的信息、降低檢驗效率,可能使原本有統(tǒng)計學(xué)意義的結(jié)果無統(tǒng)計學(xué)意義[14]。在論文寫作時,不但要交代選用的是什么統(tǒng)計學(xué)方法,而且統(tǒng)計學(xué)方法要盡可能具體。如選擇t檢驗,要說明是配對t檢驗,還是成組t檢驗;選擇方差分析時,要說明是完全隨機設(shè)計的方差分析,還是配伍組設(shè)計的方差分析。對于四格表資料,應(yīng)說明是一般四格表χ2檢驗、配對四格表χ2檢驗及四格表資料的精確概率法等。

2.2.3統(tǒng)計方法選擇常見錯誤

①誤用χ2檢驗。χ2檢驗有一定的適用條件,n>40且理論數(shù)(T)>5時,可用一般χ2檢驗;n>40,但至少有1個T>1且T<5時,可用校正χ2檢驗;n<40或T<1時用χ2檢驗的確切概率法[15]。②t檢驗誤用于多組資料的比較。在醫(yī)學(xué)期刊中常會出現(xiàn)將t檢驗誤用于多組資料的比較。多組資料的比較應(yīng)該采用方差分析(F檢驗),當(dāng)差異具有統(tǒng)計學(xué)意義時,再進一步作兩兩比較。當(dāng)各組均與一個對照組比較時采用Dunnettt檢驗;當(dāng)各組相互循環(huán)比較時,則常采用Student-Newman-keuls(SNK)檢驗,又稱q檢驗[16]。③配對t檢驗與成組t檢驗誤用。大部分論文只注明采用t檢驗,而未注明是配對t檢驗還是成組t檢驗。配對t檢驗常用于處理前后的自身對照,即差值均數(shù)與總體均數(shù)“0”的比較;成組t檢驗適用于成正態(tài)分布的兩個小樣本均數(shù)間的比較。④資料不呈正態(tài)分布時未用非參數(shù)檢驗。t檢驗F檢驗等適用于呈正態(tài)分布、方差齊且有確切的測量數(shù)值的資料,而非參數(shù)檢驗(如符號檢驗、秩和檢驗Wilcoxon法、秩檢驗-KruskalWallis法、Friedman法、Ridit分析、Seperman相關(guān)等)對資料無特殊要求,對按大小順序、評分、等級、反應(yīng)程度甚至色調(diào)深淺等資料都可進行分析比較[17-18]。因此,對于多組計量資料的比較,呈正態(tài)分布且方差齊時用F檢驗,方差不齊時可用變量變換,或采用秩和檢驗;對于兩個小樣本均數(shù)的比較或處理前后的比較,方差齊時用成組t檢驗或配對t檢驗,方差不齊時用t′檢驗[19]。

3結(jié)果解釋時存在的問題

統(tǒng)計分析的結(jié)果是推翻無效假設(shè)或是不能推翻無效假設(shè)。無效假設(shè)在一般的統(tǒng)計檢驗為兩組總體參數(shù)相等。推翻無效假設(shè)只能說兩組總體參數(shù)不相等而并不能說兩組相差很大。兩組相差如何要對可信區(qū)間進行研究觀察后得出。由于統(tǒng)計檢驗不能得出差別的大小,因而結(jié)論不能說“有明顯差異”或“有顯著差異”,也不能說“差異非常顯著”,更不能說“差異明顯”。在國外的統(tǒng)計書籍上的英語表達為“significant”,它的正確意義應(yīng)當(dāng)是“有意義的、有重要性的”。俄語為“Значмый”和日語中的“有意”也是這個意思。國內(nèi)只有極個別的英漢詞典把“significant”誤譯為“顯著的”。正確的說法應(yīng)當(dāng)是“差異有統(tǒng)計學(xué)意義”或“差異有高度統(tǒng)計學(xué)意義”等[20]。在解釋差別有統(tǒng)計學(xué)意義的結(jié)果時,有些人常常根據(jù)P值的大小作出對實驗效應(yīng)差別程度不同的專業(yè)結(jié)論[21]。例如某實驗研究,比較甲、乙兩種治療方法對某病的治療效果(假定甲法的療效優(yōu)于乙法),若得到“P<0.001”,則認(rèn)為甲法極顯著優(yōu)于乙法;若得到“P<0.01”,則認(rèn)為甲法非常顯著優(yōu)于乙法;若得到“P<0.05”,則認(rèn)為甲法顯著優(yōu)于乙法。犯這種錯誤的原因是錯誤的理解了統(tǒng)計學(xué)中P值的概念[7]。統(tǒng)計學(xué)上根據(jù)假設(shè)檢驗原理推算出來的P值表示拒絕特定的無效假設(shè)可能犯假陽性錯誤的概率。P值的大小并非指差異的太小,只能反映兩者相同或不相同。P值越小,說明越有理由認(rèn)為兩種處理方法效果不同,而不能反映對比的兩組或多組之間差異的大小。差異的大小只能根據(jù)專業(yè)知識來確定。此外,甚至在部分投稿文章中未交代所采用的統(tǒng)計分析方法,也未見應(yīng)用統(tǒng)計學(xué)的跡象,僅從各組數(shù)據(jù)的均數(shù)大小做出了統(tǒng)計推斷。醫(yī)學(xué)期刊論文中暴露出來的統(tǒng)計學(xué)錯誤,從表面上看是編輯部和審稿者把關(guān)不嚴(yán)所致。事實上,即使審稿時發(fā)現(xiàn)了上述錯誤,也無法改正。因為實驗設(shè)計的錯誤只有在科研工作開始之前才有可能得到糾正。即使編輯工作者能夠阻止有嚴(yán)重統(tǒng)計學(xué)問題的,也僅僅是治標(biāo)而已。如何使廣大醫(yī)學(xué)論文作者在醫(yī)學(xué)研究中正確應(yīng)用統(tǒng)計學(xué),提高科研質(zhì)量才是治本[7]。

4對策與建議

眾所周知,統(tǒng)計學(xué)是從事科學(xué)研究不可缺少的工具。從試驗設(shè)計、資料收集與表達、數(shù)據(jù)處理和結(jié)果分析,每一個環(huán)節(jié)都需要正確地運用統(tǒng)計知識,才能真正發(fā)揮統(tǒng)計學(xué)在科學(xué)研究中應(yīng)起的作用。然而,在已出版和發(fā)表的一些學(xué)術(shù)專著和論文中、通過評審的科研成果和答辯的學(xué)位論文中,經(jīng)??梢钥吹胶鲆?、輕視和誤用統(tǒng)計學(xué)的現(xiàn)象[22]。

4.1提高編輯人員的統(tǒng)計學(xué)知識

應(yīng)完善編輯人員的知識結(jié)構(gòu),保證統(tǒng)計學(xué)應(yīng)用的準(zhǔn)確性。為此,可定期聘請統(tǒng)計學(xué)專家對審稿人員進行統(tǒng)計學(xué)知識培訓(xùn)??萍计诳娜后w效應(yīng)理論[23]認(rèn)為,期刊編輯的專業(yè)結(jié)構(gòu)應(yīng)多元化,以利于編輯互相學(xué)習(xí),實現(xiàn)知識互補。醫(yī)學(xué)期刊編輯部可考慮聘用統(tǒng)計學(xué)專業(yè)的研究生作為編輯。編輯應(yīng)將醫(yī)學(xué)統(tǒng)計學(xué)作為自己的必修課,通過多種方式,如自學(xué)自修,參加講座或培訓(xùn)班學(xué)習(xí)統(tǒng)計學(xué)知識,有條件的編輯部,如醫(yī)學(xué)院校學(xué)報編輯部,可以有計劃地組織編輯參加本科生或研究生醫(yī)學(xué)統(tǒng)計學(xué)課程的學(xué)習(xí),也可鼓勵編輯人員在職攻讀統(tǒng)計學(xué)專業(yè)研究生學(xué)位。這樣,可以提高全體編輯人員的統(tǒng)計學(xué)水平,最終使編輯和審稿人都能夠發(fā)現(xiàn)論文中存在的統(tǒng)計學(xué)錯誤,并指導(dǎo)作者修改,正確進行醫(yī)學(xué)論文中有關(guān)統(tǒng)計學(xué)分析的描述[24]。另外,有關(guān)職能部門或?qū)W會可組織與醫(yī)學(xué)統(tǒng)計學(xué)相關(guān)的培訓(xùn)班,聘請統(tǒng)計學(xué)專家講課,對編輯人員進行定期統(tǒng)計學(xué)知識培訓(xùn),加強科研設(shè)計、統(tǒng)計學(xué)知識的學(xué)習(xí)[19]。

4.2加強醫(yī)學(xué)統(tǒng)計學(xué)專家審稿

醫(yī)學(xué)研究論文專業(yè)性強,經(jīng)常涉及統(tǒng)計學(xué)處理問題,有時會遇到統(tǒng)計方法復(fù)雜的稿件,這不僅需要本學(xué)科專家審稿,而且需要醫(yī)學(xué)統(tǒng)計專家把關(guān),只有這樣,才能保證論文所報道的研究成果的真實性和可靠性。醫(yī)學(xué)期刊編委會中應(yīng)有統(tǒng)計學(xué)專家,專門負(fù)責(zé)稿件統(tǒng)計學(xué)方面的審查工作。

4.3強化作者的統(tǒng)計學(xué)意識

目前,我國醫(yī)學(xué)科研工作者對統(tǒng)計學(xué)的重視不夠,沒有認(rèn)識到統(tǒng)計學(xué)的重要性。因此,要加強宣傳,提高醫(yī)學(xué)科研人員對統(tǒng)計學(xué)重要性的認(rèn)識,強化他們的統(tǒng)計學(xué)意識,務(wù)必在科研工作中和撰寫論文時做到正確應(yīng)用統(tǒng)計學(xué)。另外,還可以對作者開辦有關(guān)科研論文撰寫知識的培訓(xùn)班,面向臨床醫(yī)生,特別是年輕醫(yī)生定期培訓(xùn)。請有研究經(jīng)驗的專家講授科研課題的設(shè)計方法、如何正確運用統(tǒng)計學(xué)方法等。這些措施有利于強化作者的統(tǒng)計學(xué)意識,并樹立其精品意識,有利于增加優(yōu)質(zhì)稿源,從而提高期刊學(xué)術(shù)質(zhì)量[19]。

總之,提高醫(yī)學(xué)期刊中統(tǒng)計學(xué)應(yīng)用的質(zhì)量是一項長期而又艱巨的工作,它涉及到作者、編者、審者及讀者等多個方面,需要大家共同努力,才能逐步減少以至消除統(tǒng)計學(xué)誤用現(xiàn)象,從而提高醫(yī)學(xué)論文的科學(xué)性[14]。