類型
目前,人機對話測試分單機版、局域網(wǎng)版、遠程網(wǎng)絡(luò)版幾大類型。隨著經(jīng)濟高速發(fā)展,企業(yè)規(guī)模不斷擴大,網(wǎng)絡(luò)技術(shù)日新月異,遠程網(wǎng)絡(luò)版人機對話測試逐漸成為主流,它不僅避免了傳統(tǒng)紙筆測試在人力、物力、時間上的資源浪費,以及分數(shù)統(tǒng)計誤差,還能解決不同地區(qū)同時測試統(tǒng)一管理的問題。
常識
標準化測驗
標準化測驗是通過嚴格完整的程序編制的,具有事先確定的測驗題目、規(guī)范的施測流程、客觀的評分標準和標準的結(jié)果解釋系統(tǒng),此外還有測驗的信度、效度和項目分析數(shù)據(jù)等相關(guān)資料用以說明測驗的質(zhì)量。因此,一套好的標準化測驗的編制成本比較高,但相應(yīng)地,它的科學性和價值也非常高,此外,一旦編制成功,它具有使用方便、經(jīng)濟、客觀等特點。
編制一套標準化測驗時,專業(yè)研究人員通常要經(jīng)過如下幾大步驟:確定與分析測量的目標和內(nèi)容——題目的編寫與排列——預測與題目分析——題目修訂——規(guī)范測試程序和要求——樣本收集與建立常?!哦刃Ф鹊认嚓P(guān)分析——制定結(jié)果解釋
標準化測驗能夠?qū)θ说脑S多方面進行比較客觀的評價,尤其在評價底層潛在的、不易從行為表現(xiàn)中直接觀察出來的素質(zhì)時。而且顯示出比較高的有效性,如個性特征、智力、能力傾向、價值觀、興趣等。
信度
信度表示測量數(shù)據(jù)和結(jié)論的可靠性程度,即評價工具穩(wěn)定地測評到它要測量的內(nèi)容的程度。一般來說,檢驗信度有以下幾種方法:
重測信度:在恰當?shù)臅r間間隔前后,重復同樣的測量,統(tǒng)計兩次測量結(jié)果的匹配程度。
復本信度:用原本和復本同時進行測量,統(tǒng)計原本和復本測量結(jié)果的相關(guān)程度。
分半信度:在沒有復本且不能重測的情況下,將同一測量內(nèi)容的測驗題目隨機分成兩組,統(tǒng)計兩組測量結(jié)果的相關(guān)程度。
評分者信度:用于測量工具的標準化程度較低的情況下,比較典型的是評委主觀評分的測量。不同評委的判分標準會影響測量的信度,因此需用計算兩位評委評分的相關(guān)程度。
效度
效度表示評價的正確性程度,即評價工具準確地反映到它要測量的內(nèi)容的程度。一般來說,檢驗效度有以下幾種方法:
內(nèi)容效度:系統(tǒng)地檢查測量內(nèi)容的適當性,即根據(jù)對要測量內(nèi)容的了解去鑒別測驗題目。
準則效度:用已經(jīng)被假設(shè)或定義為測量某一內(nèi)容有效的工具作為效標,當用新的測量工具對該內(nèi)容進行測量時,統(tǒng)計測量結(jié)果與效標測量結(jié)果的一致性程度。
結(jié)構(gòu)效度:系統(tǒng)地檢查測量工具是否反映了要測量內(nèi)容的概念和命題結(jié)構(gòu),這種方法常常在理論的研究中使用,因此也被稱為理論效度。
從信度和效度的關(guān)系上來看,信度不高,效度必定不高;信度高,效度不一定高;效度不高,信度不一定不高;效度高,信度必定高。
常模
測量結(jié)果是否準確,常模(Norm)的適合性是非常關(guān)鍵的因素。常模是一群人在同一測量工具中得分的分布情形,這群人就是獲得該常模的樣本。某人在某一測量工具中的得分,需要經(jīng)過常模的比較才具有意義和參考價值。例如,某人完成100題數(shù)學題,答對了70題,那么他的成績屬于優(yōu)秀、普通還是不及格,就需要和他同年齡、同教育水平的群體進行比較。因此,為使測量結(jié)果更為準確,常模需要依據(jù)性別、年齡、學歷,甚至所在區(qū)域、崗位性質(zhì)、職位高低、行業(yè)背景等進行細分。
標準九分
它是一種標準分,將樣本的測驗原始得分劃分為9部分,最高是9分,最低1分,除1和9的范圍略大以外,其余均是以5為中心向兩邊各包含0.5個標準差的分數(shù)段。簡單理解,即9為最高分,1為最低分,5為中間分。
掩飾性
受到測評動機的影響,被評價者在完成某些測驗(如個性特征測驗)時,有時會掩飾自身的真實情況,揣測測驗編制者的出題用意,從社會贊許度較高的方向答題,容易導致測評結(jié)果不能準確反映被評價者的實際,甚至與實際截然相反。為鑒別真實回答與虛假回答,測驗編制者在非能力測評的測驗中加入掩飾性分量表,通過分析被評價在掩飾性分量表上的得分高低,了解其在測驗過程中是否存在掩飾性以及掩飾程度,從而推斷整個測驗結(jié)果的準確性和有效性。