就考试的内在关系而言,虽然全国
高考标准化改革迈出了有价值的一步,但仍有许多问题需要改进。标准化考试在中国一般指三个方面的标准化待遇。试题的规范化处理。它的完整目的是尽可能保持考试的内容、方法和难度一致。其实,试题的标准化是为了保证考试的有效性,让考试确实考到了要考的内容,尽量减少考生因为不熟悉题型而无法考到自己的知识和能力。
就一道试题而言,其实标准化和非标准化是没有区别的。所谓考题规范化处理,就是在同一类考试中,尽量保持一个考题与其他考题(即平行题)一致,使考试成绩的评价有一个稳定的标准。这方面还有很多问题需要研究:我们强调,必须有一个公开的考试大纲(或说明)作为规范的法定文件,这是保证试题一致性和评价标准稳定性的基础。
如果说期末考试在标准化考试中起到了作用,那也是有问题的。我甚至想找出一些教学大纲之外的独家新闻,作为指导考生复习的依据。因此,每年都有一些地方召开“高考数据交流会”,一些“小报”刊登“高考最新数据”,互相传递道听途说,极大干扰了考生的正常复习。
教学大纲看似必要,但既要充分体现中学的教学要求,又要有较大的灵活性。更灵活的考试大纲可以让考生及其老师专注于教学的基本要求,而不是专注于某一部分问题,从事应试训练。全国幅员辽阔,试题保密难度大,使用后会失效,使测量工具“被动”。这就要求我们不断探索更能体现考生水平的新题型,提高命题人员驾驭试题的能力。
现在社会上有些人经常把标准化试题和客观试题(尤其是选择题)混为一谈,认为标准化考试就是选择题。其实试题只是标准化的一个环节,还有其他环节。选择题确实有其缺点,主要是效度低,对教学效果不好,但也不能丢弃,因为可靠性高,便于机器阅卷,可以节省大量人力。
像高考这样影响千百万考生的大型考试,约束条件很多,必须综合考虑。我们不能抽象地讨论哪些问题是好的,哪些是坏的。还有人觉得选题鼓励考生猜题。其实不管是什么题型,考试前和考试中都会有猜测,只是猜测的情况因人而异,因题目而异。知道怎么做的人都不会再猜了,所以水平越高的考生越不会猜,水平越低越靠猜。
重要的问题是一个低水平的考生能否通过猜题获得高分。根据统计学中的二项式分布原理,一个考生4道题中有50道题,猜对一半以上的概率为0.000085,接近于零,猜多道题的概率更低。事实上,经过现代考试多年的实践,人们对题型已经达成了部分共识:客观题和与之相对的主观题各有利弊,不容忽视。至于两者的比例,要看具体考试的性质、目的、要求和规模,不同学科应有不同的比例。此外,客观题不限于精选题。比如填空题也有很高的可靠性,但是不能用机器打分。随着现代技术的发展,我们也应该探索利用机器来处理其他类型的客观问题。标准化试题的主要问题之一是试题的等值处理。严格来说,如果常规考试中使用的试题没有对等处理,考试就不能标准化。
每次考试的难度不可能绝对一致,导致每次考试的测量尺度不一样的问题。目前全国高考的试题没有同等对待,这与国家标准化考试的两级管理有关。换句话说,等同必须在省或地区范围内进行,而各省或地区对招办或考办等同必要性的认识非常不一致。
用标准分代替原始分是标准化改革的关键举措。在广东省,高考标准化考试中,标准分数制坚持了十几年,效果不错,被大家所接受。标准分用于更准确地反映考生的分数在考试总分中的位置;在选拔性考试中,这是保证最佳录取的关键措施。标准分的使用是世界各国考试中普遍采用的一种制度,因为在每年举行的一次大规模考试中,使用原有的分数制度有很多弊端:纸面上的分数与试题难度直接相关,但试题难度每年都不一样,考生水平也不一样,所以原有的分数没有可比性。
原始分数换算成标准分数后,每年至少考生的职位具有可比性。这相当于在金融和贸易中使用统一的计量单位进行结算。使用标准分数制后,可以缓解没有同等待遇的试题矛盾,根据所有考生人数和高校录取人数预测每年高考分数,起到稳定人心的作用。然而,对于标准子系统的使用存在许多疑问和误解,这使得它无法顺利推开。
比如标准分和原始分的差异会导致一些差异,有些人对此有意见。其实就一个科目的考试而言,中国的原始分高,标准分也高(即考生在所有考生中排名第一),考生按照原始分和标准分的排列顺序基本一致。问题是几个科目的考试成绩合并成总成绩,有些考生总成绩有些差异。
其实两者的顺序基本相同,差别不大。只有在录取线,附近的分数会有一些变化,但变化的比例并不大。因为原始分数与试题难度有关,哪个科目容易,分数高,进入总分的权重大,所以一定年份的政治学试题容易,而物理试题难,所以报考物理的考生上线率取决于政治学的分数。换算成标准分后的变化,就是对这种不合理的情况进行调整,使之趋于更加合理。这些差异是调整不合理状况的结果。使用标准分后,增加考生在各科成绩排列中的位置,排除试题难或易的情况。但这并没有从根本上克服按总分加分打分的弊端(如果不考虑测量误差,是否上线由一分之差决定),需要继续改革。
有人认为改标准分太麻烦,增加了工作量,群众难以理解。这个答案要综合来看。从信息整理和转换的角度来看,一点也不麻烦:目前各省都采用同样的方法进行分数统计,转换标准分数无非是程序上的一点变化,无需人工操作。就标准分数制度而言,确实有很多工作要做。问题是我们是否充分认识到分数制度改革的必要性。
人们不认为做任何必须做的事情是麻烦的,即使是麻烦的。吃饭比不吃饭更麻烦,没有人会因为怕麻烦而不吃饭。其实经过宣传教育,标准分数制也不难理解。
有些人有错误的观点,因为他们不理解标准分数。比如用了平均分500、标准差100的常模后,有人认为“这是分数的贬值”。实际上,500分表明了考生分数在所有考生分数中的位置,即50%(其中一半以上)得到这个分数。500分只是一个学校标准,可以是50,100,也可以是120。不管用哪个学校的标准,都意味着一个考生的分数刚好在所有考生的分数中间。使用500分有两个好处。第一,考生的分数没有小数点,减少了计算上的麻烦和错误。第二,考生的分数没有负值。
考试组织与管理的规范化。这一点往往被忽视,但却是至关重要的,应该进行公平竞争。高考之所以在群众中享有很高的声誉,与考试组织管理的规范化有关,因为以上两个方面的规范化是靠统一组织和严格管理考试来支撑的。试想,如果考试的组织管理漏洞百出,舞弊现象严重,试题出题好,评分制度改革彻底,考试依然会是无效的、不大的,在社会上是可信的。
没人会说是标准化考试。从考试组织管理的角度来看,如何防止选择题答题舞弊是一个值得思考的问题。除了完善考场管理外,试题和答题卡要尽量复制,使每个考生的试题和答题卡与附近考生的不同。我们根本没做过这个。
最小化主观题的评分误差也是一个值得研究的问题。主观题的效度较高,但信度较低,因此没有有效的方法提高其信度,因为错误来自于审稿人,审稿人越多,统一阅卷标准就越难。考试的标准化组织和管理也是制约标准化改革的另外两个方面。比如主观题,虽然效度很高,但是可以测试考生的能力,对教学有很好的影响。然而,在组织评分和确保中国所有主要考区使用相同的客观评分标准方面存在许多困难,因此主观题不能用于试题中。