信度
| A+醫(yī)學百科 >> 信度 |
信度系指測驗結果的一致性、穩(wěn)定性及可靠性,一般多以內(nèi)部一致性來加以表示該測驗信度的高低。信度系數(shù)愈高即表示該測驗的結果愈一致、穩(wěn)定與可靠。系統(tǒng)誤差對信度沒什么影響,因為系統(tǒng)誤差總是以相同的方式影響測量值的,因此不會造成不一致性。反之,隨機誤差可能導致不致性,從而降低信度。信度可以定義為隨機誤差R影響測量值的程度。如果R=0,就認為測量是完全可信的,信度最高。
目錄 |
信度的定義
信度主要是指測量結果的可靠性、一致性和穩(wěn)定性,即測驗結果是否反映了被測者的穩(wěn)定的、一貫性的真實特征。和信度相關的一個概念是效度,信度是效度的前提條件。
信度只受隨機誤差的影響,隨機誤差越大,信度越低。因此,信度可以視為測試結果受隨機誤差影響的程度。系統(tǒng)誤差產(chǎn)生恒定效應,不影響信度。
每一個測試的實得分數(shù)(X)總是由真實分數(shù)(T)和誤差(E)兩部分構成的,用公式表示如下:
X=T+E
如果我們討論一組測驗分數(shù)的特性時,可用方差代表具體分數(shù),得到公式:
S^2(x)=S^2(t)+S^2(e)
公式中,S^2(x)是實得分數(shù)的方差,S^2(t)是真分數(shù)的方差,S^2(e)是誤差的方差
在測量理論中,信度被定義為:一組測量分數(shù)的真分數(shù)方差與中方差(實得方差)的比率。即:
r(xx)=S^2(t)/S^2(x)
由于真實分數(shù)的方差是無法統(tǒng)計的,因此轉化為:
r(xx)=S^2(x)-S^2(e)/S^2(x)
=1-S^2(e)/S^2(x)
因此,信度也可以看做是總方差中非測量誤差的方差所占的比例
信度的指標
一、信度系數(shù)與信度指數(shù)
大部分情況下,信度是以信度系數(shù)為指標,它是一種相關系數(shù)。常常是同一被試樣本所得到的兩組資料的相關,理論上說就是真分數(shù)方差與實得分數(shù)方差的比值,公式為:
r(xx)=r^2(xt)=S^2(t)/S^2(x)
公式中r^2(xt)是真分數(shù)標準差與實得分數(shù)標準差的比值,稱作信度系數(shù),公式為:
r(xt)=S(t)/S(x)
可見信度指數(shù)的平方就是信度系數(shù)。
二、測量標準誤
信度系數(shù)僅表示一組測量的實得分數(shù)與真分數(shù)的符合程度,但并沒有直接指出個人測驗分數(shù)的變異量。我們可以用一組被試兩次測量結果來代替對同一個人的反復施測,于是有了信度的另一個指標,公式為:
SE=S(x)√1-r(xx)
公式中SE為測量的標準誤,S(x)是所得分數(shù)的標準差,r(xx)為測驗的信度系數(shù),從公式我們可以看出測量的標準誤與信度之間有互為消長的關系:信度越高,標準誤越小,信度越低,標準誤越大。
影響信度的因素
一、樣本特征
1、樣本團體異質(zhì)性的影響
2、樣本團體的平均能力水平的影響
二、測量長度
一般來說,在一個測試中增加同質(zhì)的題目,可以使信度提高。
需注意的是,增加測驗長度的效果應當遵循報酬遞減原則。通過斯皮爾曼-布朗公式的導出公式可以計算出最少應增加的題目:
K=r(kk)*(1-r(xx))/r(xx)*(r(kk)-1)
K為改變后的長度與原長度之比,r(xx)為原測試的信度,r(kk)為測驗長度是原來的K倍時的信度估計。
三、測驗難度
理論上說,只有測驗難度為50%時,才能使測驗分數(shù)分布范圍最大,求得的信度也最高。事實上,難度為0.50只適合于簡答型題目,對于選擇題目由于猜測因素,難度值應當提高,洛德提出在學習成績中,為了保證其可靠性,各類選擇題的理想平均難度為:五擇一測,0.70;四擇一測,0.74;三擇一測,0.77;是非題。0.85
在實際情況下,如果某個測驗適用范圍廣,其難度水平通常適用于中等能力水平的被試,而對較高水平的被試和較低水平的被試可能較易或較難,使得分數(shù)分布范圍縮小,信度水平降低,因此一個標準化的測驗,應根據(jù)不同能力水平的報告測驗的難度,以作為選擇測驗的參考
四、時間間隔
時間間隔只對重測信度和不同時測量時的復本信度有影響,對其余的信度來說,不存在時間間隔問題。
注:我們對一套問卷的信度檢驗值(一般是指克隆巴赫阿爾法信度系數(shù))有時會出現(xiàn)過低的情況,可能的原因有:
1、試卷本身設計不合理,不是圍繞一個主題或是有矛盾的題目。如果試卷中有題目讓完全相同的人選擇不同的答案,試卷的信度會降低。
2、題目區(qū)分度過低,特別指有對錯之分的題目。如果一道題正確率或錯誤率達到90%,可以從新審視題目設計是否合理。區(qū)分度過低的題目中真實偏差的成分較少,隨機偏差的成分相對較多,試卷的信度會降低。
3、無關變量進入信度檢驗。除了重測信度,其他信度檢驗方法都只考慮有序變量,無序變量,如出身城市,喜好顏色等,如果我們沒有對城市或顏色排序的話,帶入信度檢驗意義難明,可能會導致試卷的信度降低。
4、題目選項反序。對有序變量,如果變量值之間序的意義相反,會降低甚至得出負的信度。比如檢驗老師對學生評分的信度,如果一個老師的評分以10分為最高分,1分最低,另一個以1分最高,10分最低。如果不經(jīng)處理帶入信度計算,信度會降低。
信度評估的方法
一、重測信度,又稱為穩(wěn)定性系數(shù),它的計量方法是采用重測法:用同一測驗,在不同時間對同一群體施測兩次,這兩次測量分數(shù)的相關系數(shù)即為重測系數(shù)。
重測信度所考察的誤差來源是時間的變化所帶來的隨機影響。在評估重測信度時,必須注意重測間隔的時間。對于人格測驗,重測間隔在兩周到6個月間比較合適。
在進行重測信度的評估時,還應注意以下兩個重要問題:⑴重測信度一般只反映由隨機因素導致的變化,而不反映被試行為的長久變化。⑵不同的行為受隨機誤差影響不同。
二、復本信度,是以兩個測驗復本來測量同一群體,然后求得應試者在這兩個測驗上得分的相關系數(shù)。復本信度的高低反映了這兩個測驗復本在內(nèi)容上的等值性程度。兩個等值的測驗互為復本。
計算復本信度的主要目的在于考察兩個測驗復本的題目取樣或內(nèi)容取樣是否等值。復本信度也考慮兩個復本實施的時間間隔。
復本信度的主要優(yōu)點在于:⑴能夠避免重測信度的一些問題,如記憶效果、練習效應等;⑵適用于進行長期追蹤研究或調(diào)查某些干涉變量對測驗成績影響;⑶減少了輔導或作弊的可能性。☆復本信度的局限性在于:⑴如果測量的行為易受練習的影響,則復本信度只能減少而不能消除這種影響;⑵有些測驗的性質(zhì)會由于重復而發(fā)生改變;⑶有些測驗很難找到合適的復本。
三、內(nèi)部一致性信度,主要反映的是測驗內(nèi)部題目之間的關系,考察測驗的各個題目是否測量了相同的內(nèi)容或特質(zhì)。內(nèi)部一致性信度又分為分半信度和同質(zhì)性信度。
分半信度系數(shù)是通過將測驗分成兩半,計算這兩半測驗之間的相關性而獲得的信度系數(shù)。測驗愈長,信度系數(shù)愈高。同質(zhì)性信度是指測驗內(nèi)部的各題目在多大程度上考察了同一內(nèi)容。同質(zhì)性信度低時,即使各個測試題看起來似乎是測量同一特質(zhì),但測驗實際上是異質(zhì)的,即測驗測量了不止一種特質(zhì)。同質(zhì)性分析與項目分析中的內(nèi)部一致性分析相類似。
四、評分者信度,是指不同評分者對同樣對象進行評定時的一致性。最簡單的估計方法就是隨機抽取若干份答卷,由兩個獨立的評分者打分,再求每份答卷兩個評判分數(shù)的相關系數(shù)。這種相關系數(shù)的計算可以用積差相關方法,也可以采用斯皮爾曼等級相關方法。
=
信度 評介方法
信度
一般通過使用同一量表進行不同測量,分析各測量結果之間聯(lián)系的方法來評價信度。如果聯(lián)系密切,各測量結果具有一致性,則認為量表是可信的。評介信度的方法主要有:再預測量、替換形式、內(nèi)部一致性方法。
用同樣的量表,對同一組訪問對象在盡可量相同的情況下,在不同的時間進行兩次測量。兩次測量相距一般在兩到四周之間。用兩次測量結果間的相關分析或差異的顯著性檢驗方法,可以評價量表信度的高低。結果越是相關,差異越不顯著則信度越高。 用再次測量法評價信度存在一些問題。結果與時間間隔關系密切。在其他方面都相同的情況下,時間間隔越長,信度越低。其次,最初的測量可能會改變被測特征。例如,測量人們對低脂肪食品的態(tài)度可能會使他們更為關心健康問題,從而對低脂食品持更為肯定的態(tài)度。第一,實施重復測量有時是不可能的,例如測量消費者對某種新產(chǎn)品的反應。第二,第一次測量的答案可能會對以后測量有影響。受訪者可能會圖回憶第一次受測時給出的答案。第三,在兩次測量之間一個有利的信息可能會使受訪者的態(tài)度更為有利。最后,再測信度的相關系數(shù)可能會由于被測項目自身之間的相關而偏高。兩次測量中,同一項目自身之間的相關性要比不同項目間的相關性高。因此,即使不同項目之間的相關性很差,也可能得以很高的再測相關系數(shù)。
替換形式信度
用兩個形式不同的等價量表,對同一組受訪者在不同的時間(通常間隔兩到四周)進行測量。兩次測量結果間的相關性被用來評價量表的信度。
這個方法存在兩個主要問題。首先,構造等價的量表不但費時,而且花錢。其次,很難構造出完全等價的量表。兩個量表在內(nèi)容上應該等價。從嚴格的意義上說,兩個量表的測量項目應具有相同的均值、方差和相關性,但即使這些條件都滿足了,還是有可能出現(xiàn)內(nèi)容不等價的情況。低相關可能是量表的信度不夠造成的,也可能是由于量表形式不等價而造成的。
內(nèi)部一致信度
內(nèi)部一致信度用于評價累加量表的信度。在這種量表中,各個測量項目的得分被累加以得到一個總分,每個項目都測量整個量表所要測量對象的某個方面,項目之間就它們各自的特征而言應該是一致的。內(nèi)部一致信度強調(diào)的是組成量表的一組測量項目內(nèi)部的一致性。
折半信度是測量內(nèi)部一致性是簡單的方法。量表中的項目被分成兩半并計算測量結果的相關系數(shù)。這兩半相關系數(shù)高,則說明量表內(nèi)部一致性高。量表的項目可按序號的奇、性分為兩半,也可以隨機地合。問題在于劃分兩部分的方法可能會影響到評價結果。克服這一問題的常用方法是采用X系數(shù)。
X系數(shù),也稱為克朗巴哈X系數(shù),是量表所有可能的項目劃分方法的得到的折半信度系數(shù)的平均值。X系數(shù)的值在0和1之間。如果X系數(shù)不超過0.6,一般認為內(nèi)部一致信度不足。X系數(shù)的一個重要特性是它們值會隨著量表項目的增加而增加。因此,X系數(shù)可能由于量表中包含多余的測量項目而被人為地、不適當?shù)靥岣摺_€有一種可以和X系數(shù)同時使用的系數(shù)。系數(shù)能夠幫助評價,在計算X系數(shù)的過程中,平均數(shù)的計算是否掩蓋了某些不相關的測量項目。
有些具有多個項目的量表可能在結構上是多維的,那含有幾組,每一組項目測量一個方面的特征。例如,商店的形象就是一種多維的結構,包括商品的、商品的花色種類、貨與保修政策、人員服務、價格、商店位置、店面局等等。用于測量商店形象的量表就要包括測量以上每個維度(方面)的測量項目。這些維度之間是比較獨立的,因此,在包含各個準度的整個表內(nèi)部考察一致性是不適宜的。不過,如果每個準度是由幾個測量項目組成,可以計算每個度的內(nèi)部一致性。
信度 效度和信度
信度
效度和信度的關系可以用測量值的構成公式O=T S R來理解。如果測量是完全有效的,即0=T,S=0,R=0,此時測量必然是完全可信的,若量表的信度不足,它也不可能完全有效,因為有O=T R。如果量表是完全可信的,可以達到完全有效,也可能達不到,因為有可能存在導致誤差,雖然缺管信度必然缺乏效度,但信度的大小并不能體現(xiàn)效度的大小。信度是效度的必要條件,但不是充分條件。從理論的角度來看,量應具有足夠的效度和信度;從實踐的觀點來看,一個好的量表還應該具有實用性。實用性指量表的經(jīng)濟性、便利性和可解釋性。
信度 分析
信度
信度是指一個衡量的正確性或精確性,信度包括穩(wěn)定性以及一致性;學者 Kerlinger認為信度可以衡量出工具(問卷)的可靠度、一致性與穩(wěn)定性。
測驗信度越高,表示測驗結果越可信,但也無法期望兩次測驗結果完全一致,信度除受測驗質(zhì)量影響外,亦受很多其它受測者因素的影響,故沒有一份測驗是完全可靠的。信度只是一種程度上大小的差別而已。一致性高的問卷便是只同一群人接受性質(zhì)相同題型相同目的相同的各種問卷測量后,在各衡量結果間顯示出強烈的正相關。穩(wěn)定性高的測量工具則是指一群人在不同時空下接受同樣的衡量工具時,結果的差異很小。一般信度的測量時容易產(chǎn)生誤差的原因,是來自研究者的因素包括:測量內(nèi)容(遣詞用句、問題形式等)不當、情境(時間長短、氣氛、前言說明等)以及研究者本身的疏忽(聽錯、記錯等);而來自受訪者的因素則可能是由于其個性、年齡、教育程度、社會階層及其它心理因素等,而影響其答題的正確性。
檢視信度的方法有很多種,其中,最常用的是第四種 Cronbach α系數(shù),簡介以下四種:
1、再測法:使用同一份問卷,對同一群受測者,在不同的時間,前后測試兩次,求出者兩次分數(shù)的相關系數(shù),此系數(shù)又稱為穩(wěn)定系數(shù)。
需注意:相關系數(shù)高,表示此測驗的信度高,前后兩次測驗間隔的時間要適當。若兩次測驗間隔太短,受測者記憶猶新通常分數(shù)會提高,不過如果題數(shù)夠多則可避免這種影響;但若兩次測驗間隔太長,受測者心智成長影響,穩(wěn)定系數(shù)也可能會降低。
2、復本相關法:復本是內(nèi)容相似,難易度相當?shù)膬煞轀y驗,對同一群受測者,第一次用甲份測試,第二次使用乙份,兩份分數(shù)的相關系數(shù)為復本系數(shù)或等值系數(shù)。若兩份測驗不是同時實施,亦可相距一段時間再施測,這樣算出的相關系數(shù)為穩(wěn)定和等值系數(shù)。復本相關法是測驗信度量測的一種最好方法,但是要編制復本測驗相當困難。而且復本相關法并不受記憶效用的影響,對測量誤差的相關性也比再測法低。
3、折半法:與復本相關法很類似,折半法是在同一時間施測,最好能對兩半問題的內(nèi)容性質(zhì)、難易度加以考慮,使兩半的問題盡可能有一致性。
折半信度系數(shù):將同一量表中測驗題目(項目內(nèi)容相似),折成兩半(單數(shù)題、偶數(shù)題),求這兩個各半測驗總分之相關系數(shù)。
4、柯能畢曲α系數(shù):1951年Cronbach提出α系數(shù),克服部分折半法的缺點,為目前社會科學研究最常使用的信度。量測一組同義或平行測驗總和的信度,如果尺度中的所有項目都在反映相同的特質(zhì),則各項目之間應具有真實的相關存在。若某一項目和尺度中其它項目之間并無相關存在,就表示該項目不屬于該尺度,而應將之剔除。只要有做問卷就可以做信度分析,提供各項客觀的指標,作為測驗與量表良窳程度的具體證據(jù)。
信度 測試信度
信度
測試信度也叫測試的可靠性,指的是測試結果是否穩(wěn)定可靠。也就是說,測試的成績是不是反映了受試者的實際語言水平。例如,如果同一套測試在對同一測試對象(即受試者本身沒有變化)進行的數(shù)次測試中,受試者的分數(shù)忽高忽低的話,則說明該測試缺乏信度。測試的信度與測試的效度有著密切的關系。一般說來,只有信度較高的測試才能有較高的效度,但效度較高不能保證信度也一定較高。測試的信度主要涉及到試題本身的可靠性和評分的可靠性這兩個方面。試題本身是否可靠主要取決于試題的范圍、數(shù)量、試題的區(qū)分度等因素;評分是否可靠則要看評分標準是否客觀和準確。
測試的信度通常用一種相關系數(shù)(即兩個數(shù)之間的比例關系)來表示,相關系數(shù)越大,信度則越高。當系數(shù)為1.00時,說明測試的可靠性達到最高程度;而系數(shù)是0.00時,則測試的可靠性降到最低程度。在一般情況下,系數(shù)不會高到1.00,也不會降到0.00,而是在兩者之間。對信度指數(shù)的要求因測試類別的不同而不同,人們通常對標準化測試的信度系數(shù)要求在0.90以上,例如“托福”的信度大致為0.95,而課堂測試的信度系數(shù)則以0.70-0.80之間為可接受性系數(shù)。測試信度的計算方法有很多種,以下僅介紹三種易于操作的方法:
1)重測法。用同一套試卷在兩個不同時間內(nèi)來測試同一批受試者,這樣便獲得兩組分數(shù),然后計算出兩組分數(shù)的相關系數(shù)。當然,在兩次測試中,學生第二次的測試成績理應比第一次的要高,因為在第二次測試時學生已經(jīng)有了進步而且臨場經(jīng)驗也更豐富了。但是若該試題是比較可靠的,每個學生在兩次測試中的排名次序應該是基本不變的。
2)交替形式法。對同一批受試者使用試題類型完全相同,難易程度相當,但具體題目不同的兩套對等試卷先后進行兩次測試,然后計算出兩次得分的相關系數(shù)。
3)對半法。測試只進行一次,但將整份試卷的題目按單、雙數(shù)分成兩組來分別計分,算出兩組分數(shù)的相關系數(shù),然后再用Spearman-Brown的公式計算整份試卷的信度系數(shù)。具體計算步驟是:將兩組分數(shù)的相關系數(shù)乘以2,再除以1加兩組分數(shù)的相關系數(shù)。
| 關于“信度”的留言: | |
|
目前暫無留言 | |
| 添加留言 | |