教育部终于决定永久废除小六检定考试(UPSR)。在多项应对不断变化的疫情的决策当中,废除小六检定考试是教育部近来少数赢得掌声的决定之一。

长期以来,考试成绩已成为我们教育系统重点考量,经常左右学校的政策与办学,课堂中教学方法,甚至是孩子在家中及校外的自由时间。原来被教育局规定为必修的非考试科目,如健康教育、公民教育、美术、音乐之类,常在学校行政的同意下,被“借用”来为学生学习考试科目;学校为应考生额外安排的课馀备考班;学生们必须购买、却做也做不完的各科练习簿;天天背负重达8公斤的书包……最糟糕的是,考试结果几乎是学习成功与否的唯一定义。

别误会。我也支持废除UPSR。但这绝不是因为它是解决应试教育问题的方案。我相信它不是。理由是,早在新冠疫情中断了学校学习之前,用于今年会考的试卷应该已经编写好了。由于无法临时调整试卷内容,这些试卷将是无效的、没有信度,不准确且不公平。

更重要的是,我们的学童正在经历前所未有、规模最大、时间最长的学习中断。要求他们继续应付关系重大的公开考试会造成进一步的心理伤害。

考试是一种心理测量工具。尽管它不是,也不该是用来评估学习的唯一工具,它仍然是重要的工具,如果使用得当,它不仅可以为改善学习提供信息,还可以为教学,教育管理和研究提供回馈。

对许多人而言,构建一份试卷似乎只是雇用一组专家按照其格式命题和组卷的简单且直接的过程。但是实际上,在所有大规模考试中,试题的编写都必须满足一组特定的标准和规范,特别是科学的标准,才可成为有信度、效度、公平且公正的评量工具。

须有明确测量目标和范围

首先,每个试题,都必须设有一个明确的测量目标和范围,以确保测量的知识领域及认知行为(cognitive behavior,通常以布鲁姆认知层次为标准)目标与课程目标一致。

例如,一个高中生物有关遗传规律的试题测量目标,可明确地写为:“将概率的概念(知识领域)应用(认知行为)于预测性状遗传中表型的比例(知识领域)。” 这测量目标进而成为评阅试题的依据,从一些公共考试的评阅报告中可见一斑:

“这个问题的主题是教学大纲中主题11的巨噬细胞(知识领域),其中包括主题1、2、3、4和6等其它主题的材料(知识领域)。这个问题的答案一般上非常好,尽管(c)小题对于大多数的考生来说具有挑战性。多数人用回忆(认知行为)的知识而不是运用(认知行为)他们的知识来回答问题。”2016年6月国际剑桥AS及A水平9700生物试卷主考官报告

“此题干采用了某生态系统营养层的研究结果以及两个生态系统的食物网,测试考生们对生态系统结构、功能及能量流动的概念(知识领域)的理解(认知行为)和应用(认知行为)…… 小题(b)的考生反应显示,考生们概括研究结果的能力不强(认知行为),虽然绝大部分能简单地说出(认知行为)平均营养层在下降,只有极少数会引用数据明确地概括结果。考生们推断(认知行为)的能力也不强,大多数考生不经推论便直接说出物种在下降,并没有从营养层的减少推出食物链在缩短,再而推出物种的灭绝。许多考生再次在没有依据的情况下,擅自推断物种减少的导因为生态破坏、环境污染等。”2008年高中生物统一考试考生常犯错误报告

其次,任何大规模评量中,都必须对试卷或问卷进行信度(reliability),差异性(differentiability)和难易程度(difficulty)的测量与鉴定,并让相关学科专家行审查和认可其效度(validity),以便可以使用统计工具对分数进行处理和分析以得出推断和结论。(待续)

陈逸飞

前董总课程局职员、群议社社员