【废除UPSR争议】陈逸飞：考试，只是一种测量工具（下）

由此来看，每个考试分数都是一项原始数据。当所有的分数被汇集一起时，它们可以转换为中心趋势、全距、标准分数、标准误差、标准偏差等信息，以进行推论统计分析。故此，国际学生能力评估计划（PISA），数学与科学教育趋势调查（TIMSS）等国际大规模评估才可以产生信息并得出有如一下有力的结论：

“在马来西亚，有54％的学生至少达到了2级阅读水平（经合组织OECD国家平均水平：77％）。这些学生至少可以在中等长度的文本中识别主要思想，根据明确的、有时是复杂的标准查找信息，并在明确指示下反思文本的目的和形式。”

“在马来西亚，有2％的学生在数学上达到5级或更高水平（经合组织平均水平：11％）。六个亚洲国家和经济体达至此水平的学生比例最大：北京，上海，江苏和浙江（中国）（44％），新加坡（37％），香港（中国）（29％），澳门（中国）（28％），台北（23％）和韩国（21％）。这些学生可以对复杂的情况进行数学建模，并可以选择、比较和评估适当的问题解决策略以应对这些情况。”─2018年PISA报告（马来西亚篇）https://www.oecd.org/pisa/publications/PISA2018_CN_MYS.pdf

当2001年PISA成绩被揭晓时，德国的教育专家当下被震惊：结果表明，德国学生的平均成绩大大低于他们所意料，并且他们的通识教育系统中存在不平等现象。PISA结果显示，德国社会经济背景较低的学生（例如移民）比同龄人的学习困难更大。

随后，德国采取了许多针对弱势学生的改革措施，以期使教育制度趋于平等。国际教育成就评估协会研究和分析部门负责人安德列斯·桑多瓦尔-赫尔南德斯也报告了其他一些国家的类似反应。根据他的观察，冰岛和日本增加了小学数学和科学教学的教学时间；新加坡开发了教学资源，以提高认知和元认知（metacognition）能力；澳洲推出了补偿方案，以减少性别和社会经济对差异学生成绩的影响。

以马来西亚的情况而言，中小学数理科目教学媒介语是否该改为英语、或该政策是否有弊端，我们本可以透过分析我国大规模考试的结果来决定，而不是随著政治人物的个人意愿起舞。

大规模考试不是我们以考试为导向的原因。而是我们对考试的态度以及我们缺乏改变或挑战这种态度的意愿，促成了这种不良文化的形成和延续。只废除考试，而不反省我们对考试的态度和立场，恐怕无济于事。

如前所述，我仍然支持废除UPSR。但是，公开考试的废除仍然无法解决许多问题：我们的学校是否准备好能有效地进行校本评估（school-based assessment）？我们如何确保校本评估的实践不会乖离初衷，转变为应试教育的另一种形式？如何解决校本评估所引起的负面影响或局限[i]？

最重要的是，在我们的学生因停课或网上学习失灵而大量失去的学习机会，而我们却无法掌握问题严重性的情况下，我们难道不是需要更多的大规模数据和信息来指引接下来的国家教育政策，渡过难关？

我们可以没有UPSR。但我认为，我们不能没有可靠和有效的大规模数据和信息。因为它们是有关学生学习的客观的证据，可以为制定国家教育政策时做参考，是良政的基本要素。尤其是现在，我们比以往任何时候都更需要了解考试作为测量工具的本质。应试教育的问题根源不在于考试，而在于我们对考试的态度。将问题归咎于大规模考试不是办法。明智而正确地使用它才是。（完）

[i] 在2015年《澳洲教师杂志》上发表的一篇标题为“学生对校本评估的声音”期刊文章中，研究人员发现，一般而言，学生不喜欢校本评估，因此无法利用评估所提供的反馈。大约80％的学生对基于学校的评估持负面态度。这促使一些学生参加额外的补习班，以完成某些非正式评估（如演讲）中的校本评估项目。一些老师仍然依靠分数来表明学习进度。https://files.eric.ed.gov/fulltext/EJ1057928.pdf