1. 考試的定義和歷史
考試是為了衡量學生對特定主題或技能的掌握程度所進行的標準化程序。在古代中國和希臘,評估是以學生的行為表現進行的,並沒有固定的“標準答案”。考試首次大規模使用是在 6 世紀的中國隋朝,後來發展成為科舉制度。
2. 標準化考試的特點和優點
標準化考試的主要特點之一是:可以根據經驗記錄結果;因此,可以説考試分數具有相對的效度和信度,其結果具有推廣性和可複製性。[3] 這通常會使用學校成績單上的成績進行比較,成績是由每個老師打分數的。很難考慮教育文化的差異、指定老師課程的難度、教學風格的差異,以及影響評分的技術和偏見。在該學校裏,當學校試圖對來自全國或世界各地的學生進行比較時,標準化考試對於高等教育的錄取目的就非常有用了。此類國際標準測試的例子包括國際數學和科學研究的趨勢(TIMMS)和國際閲讀能力研究進展(PIRLS)。根據推測,這些考試的實施會根據諸如通用核心國家標準(CCSS)之類的標準在世界頂級國家/地區的考試安排方式而改變。


TIMMS 中表現最好的國家(“ A+國家”)可以通過三個指標來衡量:重點、連貫性和嚴格性。重點定義為每個年級涵蓋的主題數;其構想每個年級涵蓋的主題越少,對每個主題的關注就越多。連貫性的定義與一系列遵循數學的自然發展或邏輯結構的主題有關。CCSSM 與當前國家標準和 A+ 國家標準進行比較。平均而言,涵蓋主題的平均數量最多,當前國家標準的重點就最少。[4] 通用核心標準旨在通過幫助教育者專注於學生需要學習的內容來解決這一差異,而不是被無關緊要的主題分心。他們鼓勵教育材料從以淺的方式涵蓋廣泛的題目,從而過度到更深層次的幾個科目。[5]
標準化考試還消除了教師在打分時的偏見。研究表明,教師在評估學生時會創造出一種自我滿足的預期,給予他們預期將獲得更高分數的學生高分,並給予那些他們預期掛科的學生較低的成績。[6]
另一個優點是聚合性。精心設計的標準化測試可以評估個人對知識或技術領域的掌握程度,這些知識或技能在某種程度上的聚合可以提供有用的內容。也就是説,儘管單個評估的準確性可能不足以用於實際目的,但由於增加了樣本量,從而降低了誤差,因此班級、學校、公司分支機構或其他團體的平均分數可能會提供有用的信息。
3. 考試與高等教育錄取的相關性
作為申請的一部分的考試成績以及其他支持材料:例如個人陳述、GPA 和推薦信均被大學評估。研究高等教育主題的學者內森·昆賽爾注意到,在大學入學考試中,SAT、CAT 和其他客觀考試“幫助焦頭爛額的錄取官將大量的申請人分類進行進一步評估。雖然高分不能保證錄取,低分也不能否定一切,但學校會認真地對待考試成績。” [7]
研究表明,這些考試不僅可以預測一年級之後的成績,還可以預測學生可以選擇的課程難度。科學家進行的縱向研究表明,考試成績較高的學生更有可能走上充滿挑戰的大學之旅。[8]
測試還指示大學以外學生的成就,包括教師評估、研究成就、獲得學位、綜合考試成績和專業執照。[9]
考試成績提供的通用衡量標準比 GPA 有用,這在不同的學校和同所學校的兩個學生之間會出現差異。
測試成績是否證明工作和人生的長期成功的議題存在爭議,因為諸如閲讀、寫作和數學等基本能力都與工作表現有關。2007 年的一項縱向研究表明,儘管考慮到了受教育的機會的問題,但卓越人生的主要表現(例如出版小説或專利技術)與考試成績有關。甚至有許多證據表明這些技能與有效的領導力和工作中的創造成就有關。在現代信息經濟中,能夠閲讀和理解文本並具備強大的定量推理能力至關重要。[9]
許多研究表明,在某種程度上考試中測試的技能很有用。但是,2008 年發表在《心理學》(英語:Psychological Science)雜誌上的一項出色的縱向研究調查了在 13 歲時分數在前 1% 的學生。二十年後,他們都取得了非常傑出的成就,收入很高,且獲得了會讓任何父母感到自豪的重大獎項、職業成就。[10]
4. 考試與社會階層的相關性
研究發現考試成績與社會階層存在關聯,但需要注意標準化考試和大學學習的成功並不僅僅取決於階級。研究表明,“即使在控制社會經濟階層一致時,考試也是有效的。無論家庭背景如何,考試成績良好和高中成績優異的學生在大學中的成績總是要好於考試成績較低和高中成績較差的學生。” [12]
關於社會階層和標準化考試的另一個批評是,只有富人才能獲得考試準備和輔導。但是,“研究人員進行了實驗研究和受控實地研究相結合的方法來測試該問題。他們普遍得出的結論是,考試準備帶來的收益更多是在 5 到 20 分的數量級上,而不是某些考試輔導公司所聲稱的 100 到 200 分。” [13]
5. 標準化考試作為教學和錄取的工具的批評
許多人認為,過度使用和誤用這些測試會縮小課程範圍,從而損害教學。根據公平測試組織(英語:FairTest)的説法,當標準化考試是審核的主要因素時,學校使用考試來狹隘地制定課程和教授重點。審核給執行帶來巨大壓力,這可能導致對標準化測試的誤用和誤解。[17] 公平測試組織表示,濫用考試的負面後果包括縮小課程範圍、為考試而教學、迫使學生離開學校、迫使教師退出專業領域以及破壞學生的參與度和學校氛圍。批評者説,“為考試而教學”不利於高階段學習。它改變了教師的授課方式,並嚴重限制了學生們多年來學習其他內容的數量。[18] 儘管可以在不讓其內容確定課程和教學的情況下使用標準化測試,但通常,不會教授未不會測試的內容,並且如何測試該主題通常成為如何教該主題的模板。
6. 考試用途
考試是學習的一個組成部分,也有另一個更重要的層面:“在學習中”,讓學習者在學習的道路上持續前進。我們都是以某個人知道了多少種類、內容的知識為傲,一個人掌握很多種類的內容,學會許多技術、職能,但這並不算卓越。知識不是靜止的內容,而是動態的,也就是知識會不斷生長,像生物有機體一樣,隨著時間、外在環境、內部動機、生命體會等,知識持續變化生成,就像生物演化般,考試正可以讓學習者處於此一持續探索的旅程中。海德格説:“知即學習”,指出人必須持續不斷的學習成長,不是學會了就不必學了,這個層次更難。反之,如果考試阻斷了學習的動能,讓人陷入僵化和停滯,反而阻斷持續不斷學習的道路。
主題 | 優點 | 缺點 |
---|---|---|
教學 | 教師可以評估學生的進度和調整他們的教學方法。 | 標準化考試的壓力可能會限制教室中的創造力。 |
學生 | 學生可以追蹤他們的進度並找出他們需要改進的領域。 | 標準化考試的壓力會令學生緊張焦慮。 |
家長 | 家長可以瞭解孩子在學業上的表現。 | 標準化考試的成績可能無法準確反映學生的能力。 |
管理 | 學校和地區可以使用標準化考試數據來比較學校並找出需要改進的領域。 | 標準化考試的數據可能會被學校用來進行競爭而不是合作。 |
考試定義:概念與類型
考試定義,指的是對考試的性質、目的與功能進行明確的界定。它是考試設計與實施的基礎,決定了考試的有效性與信度。本文將探討考試定義的各種概念與類型,提供讀者對於考試的全面理解。
考試類型的分類
考試定義的內容與類型息息相關。根據測驗目的和方法的不同,考試可以分類為以下幾種類型:
考試類型 | 目的 | 方法 |
---|---|---|
成就測驗 | 評定學生對既定教材內容的掌握程度 | 客觀測驗、問答、簡答 |
能力測驗 | 評定學生特定能力的水平 | 認知能力測驗、非認知能力測驗 |
性向測驗 | 預測學生在特定領域的潛力 | 興趣量表、能力測驗 |
智力測驗 | 評定學生的整體智力 | 標準化測驗、認知能力測驗 |
人格測驗 | 評定學生的個性特質和行為模式 | 問卷調查、投射測驗 |
各考試類型的定義
上述考試分類的定義如下:
成就測驗: 旨在評量學生對特定教材或課程內容的學習成果。
能力測驗: 用於評量學生在認知、非認知等特定能力領域的水平。
性向測驗: 旨在預測學生的職業或興趣領域的潛力。
智力測驗: 評估一個人的整體智力的工具。
人格測驗: 用於評量學生的個性和行為模式的特質。
延伸閲讀…
考試_百度百科
考試的意義是什麼?學習?分數? – 翻轉教育- 親子天下
考試設計原則
考試的定義還包括了考試設計原則。考試設計應遵循以下基本原則:
- 明確的測驗目標: 定義考試所要評量的具體能力或知識領域。
- 合適的題型: 選擇與測驗目標一致的題型,例如客觀測驗、問答題或簡答題。
- 適當的難度: 考試難度應與學生的能力水平相匹配,既能區分不同程度的學生,又能避免過度困難或過於輕鬆。
- 公平與公正性: 考試內容應對所有學生公平公正,避免偏倚或歧視。
- 信度與效度: 考試結果應對學生的能力或知識進行準確和可靠的衡量。
總之,考試定義是考試設計與實施的基礎。它明確了考試的目的、類型、原則和具體內容的評量方式和標準,確保考試能夠有效地評量學生的學習成果和潛力。理解考試定義的各種概念與類型對於制定有效的考試和評量學生至關重要。