1995年,時任外交學(xué)院訪問學(xué)者的阿米特·塞瓦克第一次來到中國。騎著飛鴿牌自行車,他隨著北京街頭浩蕩的自行車流,打量著這座古老又快速變化的城市。
“那是一個非常令人興奮、充滿活力的時期,人們對像我這樣的外國人充滿了新鮮感和好奇。”阿米特回憶道。在他到來前不久的1981年,ETS(美國教育考試服務(wù)中心)旗下的托福考試,作為首個被引進(jìn)中國內(nèi)地的國際化標(biāo)準(zhǔn)語言測試,剛剛迎來第一批723名中國考生。
作為擁有托福、GRE等諸多測評產(chǎn)品的世界知名專業(yè)化教育考試評價機(jī)構(gòu),ETS在考試技術(shù)的運(yùn)用和教育評價觀念的引領(lǐng)方面一直處于領(lǐng)先水平。在全球教育經(jīng)歷轉(zhuǎn)型的當(dāng)下,ETS如何看待今天考試評估的新變化、新趨勢?在人工智能技術(shù)崛起的背景下,教育評價會有何變化?
2023年春,阿米特·塞瓦克作為ETS新任首席執(zhí)行官再次來到北京。中國教育報記者就這些問題采訪了阿米特。
考試測評將更關(guān)注如何全面地評價人
中國教育報:我們了解到,這次您來中國的一個重要行程是,參加托福iBT考試改革發(fā)布活動。這一次托福改革的背景是什么?
阿米特·塞瓦克:今年4月中旬,我們在北京召開發(fā)布會,介紹了托福考試改革的相關(guān)情況。簡單來說,從今年7月26日起,托福考試時長將由3小時縮短至2小時以內(nèi),并且我們將精簡考試流程說明與操作導(dǎo)引、將現(xiàn)有獨(dú)立寫作試題替換為更為簡練的全新寫作題型“學(xué)術(shù)討論寫作”、縮短閱讀部分時長,并取消所有不計(jì)分的加試題。
首先,我們想讓考試對考生來說盡可能地舒適、方便,我們想讓他們能以一種壓力更小的方式進(jìn)行評估,并讓他們對參加測試有信心。正如我上大學(xué)時一位教授所說的那樣,考試不應(yīng)該是一件煩人的事,它應(yīng)該是對你學(xué)到的知識和能力的鼓勵。其次,我們希望測試體驗(yàn)更加對用戶友好。當(dāng)然,我們在縮短時間的情況下,依然保持了考試的高質(zhì)量和嚴(yán)謹(jǐn)。總而言之,我們希望托福考試更加方便,更加友好,同時,也依然擁有和此前一樣的高標(biāo)準(zhǔn)。
中國教育報:不僅是托福,從全球來看,考試評估都在經(jīng)歷著改革重塑。您認(rèn)為將有哪些變化趨勢?
阿米特·塞瓦克:過去,世界上的大多數(shù)考試關(guān)注的都是知識的積累程度和掌握水平。但現(xiàn)在,企業(yè)招聘主管與大學(xué)招生官更關(guān)注“你是否掌握了能力”,而非“你是否掌握了知識”。我們把這稱為對“ABC能力”的重視。A是情感能力,B是行為能力,C是認(rèn)知能力。
以前,大部分考試集中于邏輯推理等認(rèn)知能力,這也是標(biāo)準(zhǔn)化考試中著重考查的內(nèi)容。情感能力則涉及你的行為表現(xiàn),比如你的情商。行為能力則是你如何應(yīng)用知識的具體行為。舉個例子,英文語法被歸類于認(rèn)知層面,理解情緒與語義則被歸類于情感層面,與他人使用英語交流則是一種行為能力。隨著世界的發(fā)展,我們認(rèn)為對ABC能力的關(guān)注將日益加深,對如何以更全面的方式來衡量和評價一個人的關(guān)注也會更多。
今天,我們已經(jīng)看到,越來越多的企業(yè)希望求職者具備良好的溝通能力、協(xié)作能力、團(tuán)隊(duì)合作能力和高情商等非知識性能力,而這些能力在傳統(tǒng)的教育體系中得到的重視和培養(yǎng)還不夠。
中國教育報:這一變化趨勢意味著什么?
阿米特·塞瓦克:總的來看,為了評估考生的這些非知識性能力,會有越來越多的考試產(chǎn)品出現(xiàn)。以ETS為例,未來,除了托福考試外,我們也會對旗下的其他測評產(chǎn)品進(jìn)行升級。比如,長期以來,GRE(美國研究生入學(xué)考試)更偏向于是一種認(rèn)知測試,主要被用來測試考生解決問題和邏輯推理的能力。但我們也發(fā)現(xiàn),越來越多的大學(xué)希望GRE考試對考生的溝通能力、團(tuán)隊(duì)協(xié)作能力等也進(jìn)行評估。因?yàn)榇髮W(xué)也日漸發(fā)現(xiàn),在研究生階段,團(tuán)隊(duì)協(xié)作能力對于學(xué)術(shù)研究也是十分重要的。
我認(rèn)為,未來的大學(xué)入學(xué)考試和結(jié)業(yè)考試,不僅有大型的標(biāo)準(zhǔn)化考試,還會嵌入越來越多的能力測評。例如,當(dāng)考生參加一項(xiàng)考試后,不僅會得到一個分?jǐn)?shù),還會獲得相應(yīng)證書和不同能力的評價。我們可以把能力測評和相應(yīng)結(jié)果納入到成績報告中,這是值得一做的嘗試。
技術(shù)全面影響和改變著教育評價
中國教育報:正如您所說,能力型、素養(yǎng)型評價越來越被重視,但對能力和素養(yǎng)如何有效評估依然是難點(diǎn)。
阿米特·塞瓦克:我認(rèn)為技術(shù)的發(fā)展將解決這個問題。目前我們已經(jīng)有了越來越多的工具可以用于能力的測評,而這些工具和技術(shù)在十年前甚至是五年前都還沒有出現(xiàn)。在我看來,借助這些技術(shù),我們對于能力、素養(yǎng)的測評會更容易實(shí)現(xiàn)。未來,我們會有越來越多的工具支撐我們開展更好的測評。
應(yīng)該看到,今天,技術(shù)的發(fā)展已經(jīng)給我們帶來了更多樣的檢測工具,比如,一些可穿戴設(shè)備能夠?qū)崟r地監(jiān)測用戶的心率和步數(shù)。我們認(rèn)為,未來測評產(chǎn)品也會是這樣的發(fā)展方向。在技術(shù)的支持下,越來越多的人能積極、定期地評估自己能力的發(fā)展,而不是只能通過周期更長的標(biāo)準(zhǔn)化考試。
隨著數(shù)字化存儲技術(shù)的發(fā)展,已經(jīng)有一些公司在做這方面的嘗試。借助數(shù)字化工具,我們對能力的測評間隔將更短,會生成更多形成性、過程性的評價。當(dāng)今的世界正在朝著科技含量更高、速度更快的方向發(fā)展,這表明了社會的進(jìn)步,也將使人們對自己已經(jīng)掌握的能力和想要培養(yǎng)的能力擁有更多的掌控權(quán)和更清晰的認(rèn)知。
中國教育報:技術(shù)給考試測評帶來了新的想象。但是,以ChatGPT為代表的人工智能技術(shù)也對傳統(tǒng)考試評估帶來了挑戰(zhàn)。您怎么看待這種影響?
阿米特·塞瓦克:包括教育在內(nèi)的許多行業(yè)正在受到以ChatGPT為代表的AI技術(shù)影響。在考試測評領(lǐng)域,AI已經(jīng)深刻影響著我們。
一般而言,我們可以把考試測評分為設(shè)計(jì)、實(shí)施、評分和分析四個階段。今天,AI正改變和影響著考試測評的每一階段。比如,在考試設(shè)計(jì)階段,AI可以通過生成式內(nèi)容技術(shù)幫助研究人員更好地開發(fā)不同類型的試題;在考試實(shí)施階段,AI可以幫助考試變得更加多樣和更具個性化;在評分階段,我們已經(jīng)可以用AI技術(shù)工具進(jìn)行自動評分;在分析環(huán)節(jié),憑借大量數(shù)據(jù),人們可以通過AI來尋找和發(fā)現(xiàn)數(shù)據(jù)背后的規(guī)律和模式。另外,AI技術(shù)還被很多大學(xué)和企業(yè)用于面試環(huán)節(jié),比如把面試人的表現(xiàn)記錄下來,通過AI對其表情、說話和溝通的方式進(jìn)行分析。
現(xiàn)在一個有趣的現(xiàn)象是,在大學(xué)招生中,很多面試官都在思考如何更好地向?qū)W生提出問題。以短文寫作為例,由于ChatGPT已經(jīng)完全可以勝任短文寫作,因此,當(dāng)面試官提問時,就得重新考慮,如何以一種機(jī)器無法替代的方式考查學(xué)生。因此,我認(rèn)為AI不僅會影響到測評本身,還將影響到教育的整個過程。
考試評估正在進(jìn)行更多樣化的探索
中國教育報:隨著技術(shù)的不斷發(fā)展,傳統(tǒng)的標(biāo)準(zhǔn)化考試會消亡嗎?
阿米特·塞瓦克:其實(shí)歷史上人們不止一次提出過這個問題,不少人也曾認(rèn)為,標(biāo)準(zhǔn)化考試會逐漸消亡。但時至今日,我們也看到,標(biāo)準(zhǔn)化考試并沒消失,反而一直在發(fā)展延續(xù)。
今天,當(dāng)我們再一次思考這個問題時,更應(yīng)該需要考慮的問題是,除了標(biāo)準(zhǔn)化考試之外,我們還有其他哪些測評方式的選項(xiàng),并確保其在不同的國家、州或省份享有同樣的有效性和公平性。我認(rèn)為這是一個值得思考的問題。如果我們?nèi)∠麡?biāo)準(zhǔn)化測試,在面對兩個背景截然不同的申請者時,院校應(yīng)如何有效、公平地評估并比較他們呢?圍繞這一問題所展開的討論,是今天教育界所關(guān)注的。
與此同時,我們也要看到不同國家、社會的情況不同,對考試評價的需求也不同。今天,世界上一些國家和地區(qū)仍然是需要標(biāo)準(zhǔn)化測試的。但在另外一些國家和地區(qū),人們正在思考和探索標(biāo)準(zhǔn)化測試之外的其他選項(xiàng)。正如我們關(guān)注到的一樣,一些國家和地區(qū)的教育評價中需要更多的標(biāo)準(zhǔn)化元素,但在另一些地方則可能希望更少的標(biāo)準(zhǔn)化色彩。
對我們來說,ETS作為全球最大的教育測評機(jī)構(gòu)之一,我們既可以提供標(biāo)準(zhǔn)化測試,也可以提供個性化測試,還可以進(jìn)行定制化測試。我們對不同的測評類型持開放的態(tài)度,并能靈活應(yīng)對。
中國教育報:近年來,美國很多高校采取“標(biāo)化考試可選”,有些大學(xué)甚至不再要求提交SAT、GRE等標(biāo)準(zhǔn)化成績。這是一種多樣化的探索嗎?
阿米特·塞瓦克:最近幾年,美國這一政策的發(fā)展勢頭越來越強(qiáng)勁。一方面,美國許多大學(xué)正感受到不小的財政壓力,他們需要增加入學(xué)人數(shù),以保持經(jīng)濟(jì)上的可持續(xù)性。對于許多大學(xué)來說,標(biāo)化考試可選政策允許更多的申請人提交申請。此外,許多大學(xué)也日益看重多樣性,該政策可以幫助大學(xué)建立一個更為廣泛、多樣化的候選人儲備庫。大學(xué)正在把這一政策作為向社會開放和增加進(jìn)入大學(xué)機(jī)會的方式。
中國教育報:在中國,高校也有強(qiáng)基計(jì)劃等多樣化的招生選拔方式。面對更加多元的考試招生方式,您怎么看?
阿米特·塞瓦克:我認(rèn)為關(guān)鍵問題是招生考試的目的是什么。在我看來,招生考試的目的之一就是幫助申請人和學(xué)校能有一個共同的框架。對于大學(xué)而言,他們最大的希望是確保評價客觀、公正并且合理。因此,當(dāng)大學(xué)決定改變或者摒棄某種測試時,都面臨著一個核心的問題——用什么標(biāo)準(zhǔn)來替代原有的測試。
幾十年來,標(biāo)準(zhǔn)化測試重要的功能是提供了這樣一個衡量標(biāo)準(zhǔn)。例如當(dāng)大學(xué)同時面臨來自中國成都、法國巴黎和美國得克薩斯的學(xué)生時,怎么評價和比較呢?傳統(tǒng)的標(biāo)準(zhǔn)化測試就提供了一種標(biāo)準(zhǔn)。當(dāng)然,這并不是唯一的,但這的確是一個有效的方法。因此今天,當(dāng)我們思考把標(biāo)準(zhǔn)化考試替換成其他考試時,我們面臨著的新的挑戰(zhàn)是,如何再造一個評估候選人的新范式。
《中國教育報》2023年07月03日第4版
工信部備案號:京ICP備05071141號
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120170024
中國教育新聞網(wǎng)版權(quán)所有,未經(jīng)書面授權(quán)禁止下載使用
Copyright@2000-2022 kevinchanphotography.com All Rights Reserved.