結(jié)果評價、過程評價、增值評價和綜合評價在實踐中的定位和職能不同,都是實現(xiàn)教育評價體系科學(xué)有效的關(guān)鍵評價方式,依據(jù)評價目的可以獨立使用也可組合使用。面向各自突出問題,結(jié)果評價要注重評價設(shè)計的能力導(dǎo)向和結(jié)果使用的公平導(dǎo)向;過程評價作為發(fā)生頻率最高的評價,重在提升日常教學(xué)評價的質(zhì)量;增值評價要尋找本土化策略;綜合評價的職責(zé)是破解片面和同質(zhì)發(fā)展的問題,要加強(qiáng)評價的開放性。“四個評價”在改革過程中都依賴于有關(guān)隊伍評價素養(yǎng)的提升,需要平衡好教育內(nèi)部與外部、標(biāo)準(zhǔn)化與個性化、科學(xué)與倫理的關(guān)系。
“四個評價”的定位與概念
《深化新時代教育評價改革總體方案》提出了“改進(jìn)結(jié)果評價,強(qiáng)化過程評價,探索增值評價,健全綜合評價”,“四個評價”在實踐中存在不同的問題,改革要求各有不同,但根本任務(wù)是保障教育評價的科學(xué)有效,提升教育評價的專業(yè)性、科學(xué)性。
結(jié)果評價是一個時間單元結(jié)束時開展的評價,提供了學(xué)生學(xué)業(yè)成就或者教育效果達(dá)到什么水平的證據(jù),屬于正式評價并有較高的利害性,評價設(shè)計和實施都相對嚴(yán)謹(jǐn)嚴(yán)格。基礎(chǔ)教育階段的結(jié)果評價最具有代表性的是中高考,考試的結(jié)果在很大程度上決定了學(xué)生的教育機(jī)會和人生發(fā)展,這種評價結(jié)果使用上的高利害性會帶來分?jǐn)?shù)傾向性。以學(xué)科考試為核心手段的結(jié)果評價是一種重要的人才選拔方式,從科舉考試開始為我國精英人才選拔和社會階層流動貢獻(xiàn)了力量。
過程評價是在一個時間單元的中間部分發(fā)生的,且在這個時間段內(nèi)可以多次開展。過程評價可以是正式的,也可以是非正式的,例如,課堂小測驗、日常作業(yè)等。國外一般將過程評價稱為形成性評價,有塑造的含義,主要功能是為師生改進(jìn)教與學(xué)提供信息或者證據(jù),多數(shù)情況下屬于低利害性評價。結(jié)果評價和過程評價二者不是互斥的,隨著時間段的長度變化、任務(wù)和目標(biāo)的變化可以互相轉(zhuǎn)換。例如,期末考試成績以評價一學(xué)期的學(xué)習(xí)情況為目的時是結(jié)果評價,當(dāng)升學(xué)成績里面包含平時成績時,期末考試就變成了過程評價。
增值評價是對學(xué)生學(xué)習(xí)、教師教學(xué)、學(xué)校辦學(xué)、政府工作的進(jìn)步幅度和努力程度的評價。增值評價起源于學(xué)校效能的公平評價,按照進(jìn)步測算的參照對象差異分為兩大類:第一類的特點是考查相對進(jìn)步,評價某一所學(xué)校的學(xué)生在一段時間內(nèi),與同一抽樣中其他學(xué)校起點相似學(xué)生相比,所取得的某方面或各方面的相對進(jìn)步。國外流行的方法有以英國為代表的背景化多水平增值模型(Value-added Model),以美國多個州為代表的基于百分位數(shù)的成長模型(Student Growth Percentiles),增值分或成長分是與同伴的進(jìn)步進(jìn)行比較后的結(jié)果,并且參照對象是相近起點的同伴而不是全體同伴,被評者處于一種競爭狀態(tài)。第二類的特點是考查絕對進(jìn)步,又分為質(zhì)性評價和量化評價兩類。在我國有發(fā)展性評價,依據(jù)評價指標(biāo)體系將被評價對象自己的終點與自己的起點進(jìn)行比較,不與其他學(xué)生或者學(xué)校進(jìn)行比較;在美國田納西州采用的教師績效檔案袋增值法,依據(jù)量規(guī)對學(xué)生樣本進(jìn)行兩個時點的打分最終獲得教師的增值分。以量化方法為主的有增分模型(Gain-based Model),基于垂直等值量表計算同一批學(xué)生的能力增長或者變化軌跡。
綜合評價的基本特征是評價內(nèi)容、手段和主體的多元,主要類型有學(xué)生綜合素質(zhì)評價、學(xué)校綜合評價、對地方政府的教育履職情況督導(dǎo)。綜合素質(zhì)評價對學(xué)生德智體美勞的發(fā)展情況進(jìn)行全面評價,有的學(xué)校采取了平時記錄學(xué)生表現(xiàn)并打分,有的集中在期末給學(xué)生打分。中高考改革將綜合素質(zhì)評價作為學(xué)生招錄參考,學(xué)生在規(guī)定時間內(nèi)使用評價系統(tǒng)上傳各種資料。學(xué)校綜合評價一般聚焦于全校學(xué)生在品德、學(xué)業(yè)、身心發(fā)展、興趣特長、學(xué)業(yè)負(fù)擔(dān)等方面的總體情況。綜合評價可以是過程評價也可以是結(jié)果評價,也可以將增值評價作為指標(biāo)內(nèi)容。綜合評價的評價主體多元,學(xué)生校外志愿服務(wù)、各類藝體活動的評價主體可以是校外有關(guān)機(jī)構(gòu)、團(tuán)體或組織,此外還有自評、同伴互評、師生互評、家長評價、社會滿意度等。
“四個評價”在評價實踐中承擔(dān)著不同的職能,但彼此關(guān)系不是并列的,依據(jù)績效、診斷和選拔不同的評價目的,可以采取不同的組合。
落實改革職責(zé)完成歷史任務(wù)
結(jié)果評價要注重評價設(shè)計的能力導(dǎo)向和結(jié)果使用的公平導(dǎo)向。
從評價設(shè)計的角度看,結(jié)果評價存在評價形式單一、內(nèi)容偏認(rèn)知、能力評價偏低階思維等問題。可以考慮以下改進(jìn)方法:在紙筆測驗之外增加表現(xiàn)性評價、開展基于信息技術(shù)的生機(jī)互動性測試,扭轉(zhuǎn)依靠記憶力和重復(fù)訓(xùn)練獲取高分的局面,增加高階思維能力以及跨學(xué)科橫向能力的評價。結(jié)果評價改革需要避免將考試難度、區(qū)分度和負(fù)擔(dān)畫等號的誤區(qū),部分地區(qū)片面降低考試難度增加大量考查細(xì)心程度和記憶的題目,既不利于創(chuàng)新人才培養(yǎng)也不利于減負(fù)。高階思維能力以及跨學(xué)科橫向能力的評價是當(dāng)前國際學(xué)生素養(yǎng)測評的熱點,我們應(yīng)加強(qiáng)國際比較研究,著眼于21世紀(jì)技能培養(yǎng)的國際趨勢,將教學(xué)和考試難度控制在適度范圍內(nèi)。
從結(jié)果使用角度看,結(jié)果評價存在結(jié)果使用方式單一的問題,原始分、優(yōu)秀率等指標(biāo)導(dǎo)致學(xué)校更愿意關(guān)注優(yōu)秀學(xué)生。改進(jìn)結(jié)果評價既要引導(dǎo)學(xué)校使用綜合評價,給予普通學(xué)生其他表現(xiàn)渠道,也要保障普通學(xué)生的學(xué)業(yè)發(fā)展,文化素養(yǎng)是所有學(xué)生生存發(fā)展和成為國家建設(shè)者的基本需要。基于分?jǐn)?shù)的評價同樣可以通過豐富分?jǐn)?shù)信息表達(dá)方式促進(jìn)校內(nèi)公平,例如,可比較后20%的學(xué)生的成績、隨班就讀殘疾兒童、流動人口子女成績的校際差異等。
過程評價塑造學(xué)生力度最大,重在提升日常評價的質(zhì)量。
過程評價因在日常教育教學(xué)中時時發(fā)生,對學(xué)生塑造能力最強(qiáng),在實踐中卻非常薄弱不受重視,過程評價沒有充分發(fā)揮診斷、反饋和促進(jìn)的作用。以往,過程評價改革較多精力放在形式上的探索,包括探索鼓勵式評價、低年級游園式期末考試、各類之星評比等,這些評價形式都是必要的,但服務(wù)日常教學(xué)任務(wù)的過程評價,例如,單元測驗、課堂測驗和作業(yè)等,設(shè)計質(zhì)量參差不齊。同時還忽視了學(xué)生在過程評價中的作用,例如,學(xué)生可依據(jù)教師提供的評價標(biāo)準(zhǔn)自評作業(yè)或者小測驗,而這是作為學(xué)習(xí)評價的一種重要形式。加強(qiáng)過程評價一方面要加強(qiáng)有關(guān)研究,為一線教師提供資源支持;另一方面也需要加強(qiáng)教師的能力建設(shè),提高日常測評工具的質(zhì)量,發(fā)揮學(xué)生成長輔助工具的作用。
增值評價是績效公平評價的要求,要尋找本土化策略。
增值評價在我國推廣面臨很多困難,統(tǒng)計上缺乏大規(guī)模的標(biāo)準(zhǔn)化測驗提供數(shù)據(jù),義務(wù)教育階段以縣為主進(jìn)行管理和評價,初中學(xué)校樣本量一般無法滿足多水平模型和成長模型的要求,而小學(xué)存在學(xué)生發(fā)展速度快、波動大,無法區(qū)分來自個體成熟和外部教育的作用。實踐中教師質(zhì)疑復(fù)雜統(tǒng)計結(jié)果能否真實反映績效,傳統(tǒng)的好學(xué)校擔(dān)心進(jìn)步空間小在評價中吃虧。為解決低年級以及藝體學(xué)科沒有標(biāo)準(zhǔn)化考試分?jǐn)?shù)用于計算增值分的情況,美國采用的檔案袋增值法可以學(xué)習(xí)和借鑒。詳細(xì)的評分標(biāo)準(zhǔn)對教師教學(xué)是非常好的指導(dǎo),在教師自評的基礎(chǔ)上開展教師同行評價,教師參與感強(qiáng)并能夠從同伴那里獲得改進(jìn)建議。我國可以先在部分省或者地市范圍的高中采用中高考、模擬考試成績進(jìn)行試點;義務(wù)教育學(xué)段可以選擇部分學(xué)科嘗試檔案袋增值法,也可以創(chuàng)新中國增值評價模式,用好學(xué)校督導(dǎo)或者辦學(xué)質(zhì)量評價等活動。
綜合評價破解片面發(fā)展和同質(zhì)發(fā)展的問題,要加強(qiáng)評價的開放性。
綜合評價改革的目標(biāo)是打破學(xué)校、學(xué)生發(fā)展中片面追求考試分?jǐn)?shù)、千人千校一面的問題,實踐中也存在一些問題需要探索。例如,為了公平容易出現(xiàn)新的分?jǐn)?shù)化現(xiàn)象,對所有學(xué)生是相同指標(biāo)要求又導(dǎo)致新的單一量尺問題。不同學(xué)生的天賦不同、發(fā)展目標(biāo)不同,對綜合素質(zhì)的要求應(yīng)該有不同側(cè)重,應(yīng)區(qū)分不同要求、底線要求和專業(yè)錄取要求。在學(xué)校評價方面,家長和社會對學(xué)校的評價形成社會輿論進(jìn)而影響到政府管理行為,但家長能夠掌握到的學(xué)校辦學(xué)情況以學(xué)生成績?yōu)橹鳎倳詫W(xué)生成績評價學(xué)校。我們要引導(dǎo)家長、社會樹立正確的教育評價觀需加強(qiáng)教育信息的公開和宣傳,包括公開學(xué)校辦學(xué)水平評估報告、各類督導(dǎo)檢查報告、各類學(xué)生活動或賽事結(jié)果,并加強(qiáng)各類教育活動的社會開放性和參與性。美國密歇根州教育部門為家長提供了有20個指標(biāo)的公告板,包括本校和其他學(xué)校連續(xù)3年的數(shù)據(jù),信息透明為家校合作提供了有力支持。
討論與建議
教育內(nèi)部與外部的協(xié)同。
一個好的評價系統(tǒng)包括賦能環(huán)境、機(jī)構(gòu)能力和個人能力,核心都離不開人的作用。評價的實施者從專業(yè)人員到一線教師都需要提高測評素養(yǎng),評價的賦權(quán)者和使用者從政府到社會也需要學(xué)習(xí)一些測評常識,為評價的創(chuàng)新和改革提供環(huán)境支持。
教師群體是學(xué)生最直接接觸且接觸次數(shù)最多的評價者,因此實施教育評價改革的主力不是專業(yè)科研人員而是一線教師。這個群體的影響力被低估和忽視了。近年來,考試評價改革提高到前所未有的高度,一般認(rèn)為升學(xué)考試指揮棒改變必然導(dǎo)致教師日常評價行為的改進(jìn),與學(xué)生日常發(fā)展息息相關(guān)的作業(yè)、課堂測試、單元測驗等較多停留在政策文本上,尤其是作業(yè)的改革較多表現(xiàn)為作業(yè)時間的限制或者作業(yè)類型的限制,對教師提高作業(yè)設(shè)計能力、日常測驗?zāi)芰Α①Y源支持方面還缺乏有效行動。教師還是綜合素質(zhì)評價重要主體,隨著綜合素質(zhì)評價在升學(xué)評價中的地位不斷加強(qiáng),系統(tǒng)提升教師教育評價能力已經(jīng)是當(dāng)務(wù)之急。
社會支持也決定了評價改革能否落地,例如,題目開發(fā)成本、多次考試之間的等值都期待考試題目保密,原始分?jǐn)?shù)轉(zhuǎn)換成統(tǒng)計分?jǐn)?shù)等,與我國公開考試題目、卷面分等于最終總分等社會文化傳統(tǒng)不一致,需要完善社會誠信系統(tǒng)和增強(qiáng)社會對考試系統(tǒng)的信任度。技術(shù)創(chuàng)新科學(xué)落地也需要決策者和技術(shù)人員之間有效合作,協(xié)調(diào)好行政需要和技術(shù)需要。
標(biāo)準(zhǔn)化與個性化的平衡。
2017年,美國的一部分中學(xué)聯(lián)合成立了精熟成績單聯(lián)盟(Mastery Transcript Consortium, MTC),認(rèn)為傳統(tǒng)的大學(xué)申請文書遵守的統(tǒng)一范式是工業(yè)化時代的產(chǎn)物,不適應(yīng)今天的需求。同時越來越多的大學(xué)表示不再對本科申請要求SAT、ACT成績,研究生招生不再要求GRE和GMAT也形成了一種風(fēng)潮。實施新政的大學(xué)認(rèn)為SAT和ACT的存在只是刺激了培訓(xùn)市場,高中4年的GPA比3小時的測驗更能說明學(xué)生的能力。MTC聯(lián)盟雖然也打著促進(jìn)社會公平的旗號,但指標(biāo)體系對教育投入的要求更高,各種素養(yǎng)證明需要家長投入資金、時間和人脈,其本質(zhì)還是推動評價的個性化更好地服務(wù)精英階層。我國社會也出現(xiàn)了結(jié)果評價應(yīng)轉(zhuǎn)向過程評價的聲音,過程評價用于選拔對使用者、實施者和被評者來說成本都非常高,標(biāo)準(zhǔn)化考試給普通大眾提供了參與評價的機(jī)會,從而保障了社會上升通路,我們的評價改革必須小心平衡標(biāo)準(zhǔn)化和個性化之間的關(guān)系,評估農(nóng)村地區(qū)綜合素質(zhì)評價、選課走班改革、有特殊需求群體學(xué)生存在的困難等。
科學(xué)與倫理的融合。
一般來講,評價次數(shù)越多、評價內(nèi)容越多評價結(jié)果越可靠,部分學(xué)校和地方因此片面理解加強(qiáng)過程評價、健全綜合評價,讓學(xué)生處于時時處處被評價的緊張狀態(tài),或?qū)⒕C合素質(zhì)評價演變成要求學(xué)生各個方面齊頭并進(jìn),對科學(xué)的過分追求反而走向不科學(xué)。以往研究證明,過多評價會導(dǎo)致學(xué)生疲勞厭倦降低學(xué)習(xí)質(zhì)量,過程評價要依據(jù)評價目標(biāo)選擇適當(dāng)節(jié)點和代表作;綜合素質(zhì)評價的理論基礎(chǔ)是多元智能理論,面對不同特長和個性的學(xué)生提供不同的賽道,并允許賽道之間轉(zhuǎn)換。
在關(guān)鍵性考試上應(yīng)加強(qiáng)倫理審查,例如,考試題目求新的同時,必須檢測是否存在項目功能差異問題,避免出現(xiàn)題目本身或者題目情境對某個學(xué)生群體不公平的問題。從評價系統(tǒng)的制度建設(shè)角度,評價改革還應(yīng)建立教育評價仲裁、審查、指導(dǎo)各類委員會,對各級評價的開展實施監(jiān)督和指導(dǎo)。各類委員會的成員應(yīng)有廣泛的代表性,尤其是應(yīng)有農(nóng)村教師的參與。
(作者任春榮,系中國教育科學(xué)研究院研究員)(《中國民族教育》雜志2021年第6期)
工信部備案號:京ICP備05071141號
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120170024
中國教育新聞網(wǎng)版權(quán)所有,未經(jīng)書面授權(quán)禁止下載使用
Copyright@2000-2022 kevinchanphotography.com All Rights Reserved.