PISA測評在中國的施測,使得我們對國際大規模測評項目從“遠觀”走向了“近賞”。國家教育部考試中心從2006年開始實施PISA中國試測研究項目,進行了PISA測評工具翻譯和預試調整、學校樣本和學生樣本提取、評價實施、編碼閱卷、數據整理、統計分析和結果報告全環節的工作。上海從2008年開始,參加PISA測評相關工作,分別在2009年和2012年參加了PISA正式測評,在閱卷、數學、科學三個領域,都取得了第一名的好成績,在華夏大地上引起很大震動。PISA測評也逐漸從象牙塔走進了人們的日常言談之中。同時,由PISA測評所引起的反思也不斷呈現在我們眼前。它測了什么?是否真的有效?對我們的教育有何啟發?這類問題不斷呈現在一些相關文章中。[1]
對于中國測量或評價領域而言,PISA測評是新鮮事物。面對其所得測評結果數據,可以解釋多角度多層面的問題,甚至可以為宏觀教育政策提供數據支撐。人們不免會思考:為何中國的大規模考試(特別是高利害性考試)很難做到這些?還有許多人常為出現“科學的考試,不簡單;簡單的考試,不科學”現象而困惑。我們確實應該認真全面地分析和思考類似于PISA測評這類國際大規模測評所呈現出的“圖景”。(www.toyotajt.cn)
國際數學和科學評測趨勢(the Trends in International Mathematics and Science Study,簡稱TIMSS)測評是比PISA測評出現更早,且影響同樣巨大的國際比較研究項目之一。兩個項目有一些共同的測評領域,數學就是其中的一個。同樣都是測評數學,這兩個國際測評項目的調查結果一直存在著差異,眾多文件資料都注意到這一點。[2]同樣都是國際大規模的測評,整個測評管理及技術規范水平都非常高,卻仍會得到不同的結果。是什么影響了這些結果的差異性?如何影響的?是否還有類似的結果存在?這些又說明了什么呢?在這些結果的形成過程中,測評系統為它們的有效呈現提供了怎樣的保障和支撐?內在的因果邏輯是否存在?