经过几年的研究和实践,我们认为SJP完全可以成为一个完 整的新型教育评价理论被确立。数字化学生评价(简称SXP) 是SJP的一个重要方面。本文对SXP的基本思想和理论框架以 及在学生评价中的操作方法做一个全面阐述。
二、SXP的理论框架 SXP的理论基础是现代教育理论、教育测评理论和科学 测量理论。根据现代教育理论和人的发展规律确定评价的指 导思想;
根据教育测评理论制定有效的评价指标体系,减少 无效评价指标和无效数据;
根据科学测量理论建立评价操作 方法和数据处理方法,提高评价数据和结果的可靠性,减少评价误差,降低操作难度。SXP的指导思想是,发挥评价的 教育功能,引导学生自我认知、自我教育,促进学生自主、 和谐发展;
评价过程遵循科学性、导向性、发展性和便捷性 的原则,力求内容全面、客观、科学、规范,以满足传统的 测评方式无法实现的要求;
促进教职工深入思考和研究人的 发展规律,树立正确的人才观和发展观,构建适合学生主动 发展的教学环境和学校文化氛围。
(一)SXP的评价原则发展性原则:运用评价手段促进 学生自主、全面、健康、和谐发展。导向性原则:发挥评价 的导向功能,使学生明确学校所倡导的发展方向。激励性原 则:引导学生确立发展目标,自觉构建与之相适应的知识与 能力结构(这需要建立反馈查询系统,指导学生正确分析反 馈,培养学生自我反思和自我调节的能力)。教育性原则:
学生评价不是一次性测评的单一目的行为,评价要充分体现 教育功能。结合评价,教师要加强与学生的思想沟通和感情 交流,对学生的发展实施有效引导。科学性原则:依据科学 测量的基本理论,对评价信息进行科学的分析和处理,使评 价的结果尽可能真实刻画评价对象,为学生自主和谐发展提 供准确可靠的参考。简捷性原则:操作便捷,减轻教师的工 作负担(这样才能使学生评价的工作成为常态的或常规的工 作,使评价工作成为一个不间断的过程,这也是获得真实可 靠的评价信息的前提);
评价结果的呈现方式直观形象。
(二)SXP的评价价值目标1.展现学生的能力结构。承认人的能动性、主动性和差异性,评价结果要充分体现学生 的个性差异(差异无优劣)。因此,SXP的价值指向不是为 了对学生进行排序和选拔。2.实现学生的自我认知和自我教 育。通过评价信息的反馈(学生进行信息查询),促进学生 不断进行反思和矫正,实现学生的自我教育和主动构建;
在 倡导自主发展的同时,为学生提供必要的、阶段性的、动态 的评价反馈信息。3.发现学生的能力倾向,发掘学生的潜能。
建立科学的评价指标体系,实现有效评价,使评价结果能够 反映出个体差异。评价指标应体现出独立性、基础性、可观 察性和导向性。研究制定评价指标体系的过程就是深入研究 人的发展规律和学生培养方向的过程。学校根据办学目标和 学生发展目标,建立校本评价指标体系。校本评价指标体系 的建立要力求符合本校学生群体的特征,实现学校的培养目 标,促进学校办学特色的形成。4.促进教育者(教师、家长) 教育观念的改变。在评价中,引导教师努力构建以学生为主 体的生动活泼的学习场景,使学生的各项才能在不断展现中 得以提高,促使教师和家长树立正确的人才观、发展观。
(三)SXP的基本原理1.教育评价存在误差。教育评价 本质上是对人的能力发展水平的测量,因此也必然存在着测 量误差。教育评价需要建立误差概念,需要运用误差理论来 处理测量结果。因此,SXP是科学测量理论和方法在教育测 评中的运用。
2.评价是认识过程。对人的认识是一个较长的过程,是一个由模糊到清晰、由片面到全面、由肤浅到深刻的相对长 期的过程。因此,教育评价不是一次性的测量行为,不可能 通过一次评价就能全面了解评价对象,准确刻画评价对象的 个性特征。从这一点上讲,教育评价又与科学测量不完全相 同。
3.评价即是教育。人是一个主动系统,会对外界刺激产 生反应,会根据外界反馈信息不断自我调整。学生评价结果 会影响和改变学生的行为,甚至可能会决定学生的发展方向, 这正是教育者应当充分利用的手段和功能。因此,学生评价 不仅仅是认识、甄别和测量学生发展状况的过程,同时还是 不断改变学生状况的过程,也就是影响和教育的过程。因此, 学生评价作为教育的手段应当贯穿于教育过程的始终,成为 教育过程的组成部分,成为持续的和持久的教育行为。
4.人的综合能力具有结构。一般来讲,学校学习、社会 生活和职业活动所需要的各种基本能力一般人人都具备,但 各有短长和优劣,或者说不同人的强项表现在不同方面。这 就是知识与能力的结构(也可以理解为“智能结构”)。知 识与能力结构上的差异是人的特征的重要体现,亦即人格。
未来的工作和社会发展需要各种人才。因此,教育要培养具 有不同特点的人,学生评价应当能够充分反映学生的特点, 即各种能力的发展状况以及能力结构。所以,评价结果应当 是一个多维的整体。
5.比较即评价(或评价即比较)。评价对象与其所处的群体相互联系。平时教师在谈论学生时,常常可以列举出一 些学生或描述出某学生的表现,也就是对学生的印象,这些 常常是那些表现突出而给教师留下较深刻印象的学生。教师 能够列举出学生,感觉到某学生的表现突出,实际上就已经 将该学生与其他学生进行了比较。这就是评价。因此,比较 就是评价,或者说评价就是比较。差异只有通过比较才能被 认识。通过比较体现出差异的评价是有效的评价。教师随后 需要做的工作,就是将学生表现突出的方面进行分类:属于 评价指标体系的进行标记纪录,不符合指标体系的采用个性 化描述(用文字、图像、影像等手段),假如教师认为有必 要的话。
6.评价需要实证。只有观察到的行为才能被确认,或者 说能够表现出来的能力才是有效的和可评价的。这是确保评 价信息可靠性的基本前提。某人的某种能力如果不能表现出 来就不能被认识,因而也不能被评价;
某人从未表现出某种 能力(迄今为止)就可能实际上不具备这种能力。有被观察 到并被记录的评价信息才是有效的和可靠的。
7.真实的结果来自可靠的数据。评价结果的客观准确来 自于评价信息的可靠性。从科学测量的角度讲,教育评价或 测量的对象是人的能力及发展水平,这是一个非常特殊的测 量对象,其特点是边界和层次模糊。我们往往无法清晰地划 分不同能力之间的界限,因为不同能力之间常具有相互依存 和相互交融的特征,例如,理解能力和语言表述能力并非完全独立存在,即一个人常常无法清晰准确地表达出自己不理 解的事物。同时,能力的等级层次也常是模糊的。因此,面 对模糊的测量对象,就单次测量来讲,精确的测量常常是无 法实现的。因此,评价者在实际观察到的前提下获得的单次 可靠的(可能并非是精细的)评价记录,是确保评价最终结 果真实的前提。
8.数据(评价信息)量决定真实性(可信度)。可信(公 认的或能与评价对象相对应)的评价结果由“可靠数据”累 计生成,而并非取决于一次评价数据的“精确性”。用正确 的测量方法进行等精度测量所得到的每个测量结果均存在 误差,每个测量结果对最终的结果都有贡献,误差的分布特 征决定了最终的结果是最可信的。因此,可信的评价结果是 由多位评价者依据相同的标准、运用相同的手段在较长时间 内各自独立地对评价对象进行可靠观察的基础上经过多次 评价(或测量并记录信息标记)形成的。同时,数据量也直 接影响了评价层次的丰富程度与精细程度,决定了与评价对 象客观情况的接近程度。
9.评价数据(信息)的真实可靠与评价结果的利害相关。
低利害(或低风险)环境有利于获得更加真实的评价信息。
由于教育评价的对象是人,而人又是一个主动系统,会自觉 或不自觉地对外界刺激作出反应。因此,在高利害评价的情 景中(纸笔形式的选拔测试或面对面的面试、访谈),被评 价者往往会由于本能造成“应试”状态下的行为“失真”(可能是有意的,也可能是无意的)。我们在非“应试”状态或 低利害的环境中采集到的被评价者的信息将更加真实可靠。
10.培养目标决定评价指标要素。学校要面向未来,根据发 展定位来制定学生质量标准,根据学生质量标准制定评价指 标体系。评价指标体系是一所学校教育理念与价值追求的最 直接的体现。因此,评价目标体系中既应当有“普适”的内 容,还应当有校本的内容,而后者更加重要。校本评价指标 是一所学校办学目标和培养目标的重要而直接的体现。根据 上述理论前提,SXP在操作上采取了以下一些措施,以确保 评价结果的客观真实性。多位评价者提供的单次评价信息产 生的单次评价结果,其真实性决定于每个数据信息的可靠性 (即每个评价者在可靠观察基础上做出的标记记录);
阶段 性和终结性评价结果的可信度来自于可靠的评价信息量(在 较长时间或全过程内由多位教师在观察基础上提供的标记 记录)。SXP采取尽可能减少评价等级的方式来确保评价原 始信息的可靠性以及操作的简捷性。此外,SXP变一次性评 价为多次(多个周期)评价,以确保有足够的评价信息(相 当于测量的数据量)。随着评价信息的积累,评价结果不断 变化,评价结果与评价对象的实际情况逐渐接近,即对评价 对象的刻画逐渐精细和逼真。一个阶段的评价结束后,全部 信息采集完毕,生成最终的评价结果,这个结果也是相对最 精确可靠的。对于每位教师来讲,记录等第标记本质上是一 种基于观察法之上的定性评价(比较)。SXP系统将多位教师的定性评价转化为定量评价,最终以数字化评语的方式呈 现出评价结果。综上所述,减少评价等级(根据评价对象的 特征并为了降低操作难度),增加评价次数(多次评价和尽 可能多的教师参与评价),降低某一单次数据信息对评价结 果的影响,根据全过程中多次评价的数据信息寻求最可信值。
也就是说,任何教师的任何一个记录标记都会影响到评价结 果,但任何一个教师的任何一个标记都不会对评价结果起到 决定性的作用,这就大大降低了由于偶然因素产生的“不良 数据”所引起的偏差。SXP最终依据大量数据生成客观、直 观的评价结果――数字化评语。这就是SXP简化操作过程同 时提高评价结果客观可信程度的基本思想。实际上,SXP是 将一件复杂的工作拆分成多个简单的工作分配给多位老师 共同完成。这样做的目的是使每位教师工作的复杂程度都降 低,同时提高每位教师工作结果的可靠性。
三、对SXP的初步检验 SXP的理论和评价指标体系建立后,需要进行实践检验。
严格地讲,对于一个评价理论的检验需要较长的时间和较大 的样本量。就时间来讲,可能需要几年甚至几十年;
就样本 量来讲,可能需要数万个甚至数十万个。因此这里所说的检 验,只是检验这一新的理论和评价操作方法的可行性。从 1999年开始,我们对SXP进行了试评和初步试验,主要就四 个方面的问题进行试验研究:一是标记能否有足够的覆盖 率?二是评价结果能否充分体现差异?三是评价结果能否与对象相对应?四是评价结果能否体现倾向性。
(一)等第标记的覆盖率正常情况下,评价结果应当呈 现正态分布,也就是说,在一个正常的群体中,就某项能力 指标来讲,绝大多数应当处于群体的平均水平,能力较强的 和能力较弱的人应当是少数。因此,在SXP中,教师只需要 用等第标记将“极端情况”记录下来即可,而且每位教师应 当在彼此独立的情况下对学生进行评价操作。我们向教师建 议,等第标记控制在学生人数的10%~20%。令人担心的是, 评价标记是否有足够的覆盖率?会不会出现大部分学生的 记录完全为空白?1999年,我们在当时的高一和高二两个年 级各选一个班进行试验,共100名学生。7周后完成了第一次 评价数据的采集。单次评价数据结果表明,标记的覆盖率为 99%(共有12~14项评价指标)。分析标记的分布情况后得 知,学生在不同的学科和不同的能力指标上都有所表现而被 教师观察到。这说明学生的能力特征的确是存在差异的,与 教师平时从教学和与学生的交往中得到的感性认识是相符 的。而且重要的是,就评价结果分析来讲,尽管教师的评价 是独立完成的,但某位教师对其他教师的评价结果也有较高 的认同度。经过试验和研究思考后,我们认为评价指标的数 量可以进一步减少,一般以6~8项为宜,最多控制在10项以 内。总体标记的覆盖率在60%以上即属于正常情况。此外, 要提倡教师对学生进行个性化描述,记录一些典型的、具体 的案例;
要鼓励学生进行自我描述;
要建立合理的学生互评方式,目的是通过学生之间的互评,鼓励学生相互学习,相 互借鉴。
(二)评价结果的差异性由于每一项指标只覆盖10%~ 20%的学生,会不会造成大量学生的评价结果雷同?试验结 果显示,100名学生没有出现完全相同的评价结果,这是由 于学生在不同的学科、不同的场景和不同的能力评价指标上 得到标记记录,因此,学生最终的评价结果即数字化评语的 形状各异。从理论上讲,如果按九名学科教师评价六项指标 计算(下同),那么一名学生所得到的评价结果的种类将达 到354个。这说明SXP可以充分展现人的多样性特征。评价的 层次是否丰富也是需要检验的问题。根据SXP可知,评价层 次的丰富程度与参与评价的教师数量和评价的次数有关。总 体上讲,评价数据积累越多,评价结果的层次就越丰富。根 据SXP计算,在三年完成(18次,按每学期采集三次数据计) 数据采集后,每项指标的评价等级应当是532。事实上,这 一评价等级的丰富程度远远超过了现行的任何一种形式的 纸笔测试,重要的是每个数据标记的来源都是基于观察得到 的结果,其可靠性不容置疑!这就确保了最终评价结果的真 实性。
(三)评价结果能否与评价对象相对应我们目前尚缺乏 大数据量的统计分析,事实上,这样的分析可能要在相当一 段时间的试验之后才有可能进行。但是我们已经发现了一些 有利的案例。根据平时的教育经验,我们进一步判断该学生可能具有的特点:成绩良好(可能处于中等,不是优秀), 可能是班级活动或其他社会活动的积极参与者,可能人缘好、 乐于帮助朋友、活泼好动,但在学习方面缺少踏实、认真和 刻苦,等等。可以看到,数字化评语为我们所描述了生活中 一个活生生的学生。我们向班主任询问这样的学生是否真实 存在。我们的期望目标是班主任列出5名学生,如果这个学 生能名列其中,我们就认为评价结果与学生实际具有较好的 对应性。结果令我们十分欣慰,因为班主任在分析评语的信 息后,提出的第一个学生就是该学生。当然,是否具有对应 性还取决于教师对学生的了解程度,这也相当于是对教师了 解学生程度的检验。
(四)评价结果能否体现学生发展的倾向性这实际上也 是一个评价结果与学生情况能否对应的问题。在看到了这则 文章后,我们查询了1999年10月所采集的学生评价数据(由 于此段时间SXP系统和评价指标不断调整,故在随后的一段 时间里暂停了数据采集工作)。此次评价数据显示:该学生 在11项评价指标当中,语文学科有2个标记(刻苦认真和写 作能力)、计算机学科有3个标记(学科兴趣、交流合作、 刻苦认真)、生物学科有6项标记(交流合作、刻苦认真、 学科兴趣、学习技能、学习能力、自控能力)、化学学科的 全部指标均有标记记录(就意味着高于群体均值);
其他学 科的评价记录为零(低于群体均值)。显然,该生的主要兴 趣倾向在化学、计算机、生物等学科,而《化学在线》恰恰是化学与计算机两学科的综合产物。该生后来进入大学学习 生化专业。
四、与SXP有关问题的讨论 (一)有效评价指标和无效评价指标教育测量理论认为, 如果把甄别作为评价的目的,那么评价就应当体现差异,不 能体现差异的评价是无效的。以考试命题为例:在区分性或 选拔性考试中,每一考题应当尽量体现区分的作用与功能, 即使一部分学生能够得分,一部分学生不能得分或者不能得 满分。当然,一道好的考题应当具有良好的区分度,即该试 题的得分情况应当与学生群体的总分分布呈正相关,即高分 组的大部分考生能够得到此题的分数,低分组的大部分学生 此题没有得分或没有得满分。具有良好区分度(相关系数通 常应达到0.3以上)的试题是“好题”或有效的试题,否则 是不良试题或无效试题。区分度为负值的试题是典型的“坏 题”。如果一道试题使所有的学生都得满分或都得零分,这 样的试题的区分度就是零,是无效试题。SXP是将体现差异 作为主要目的的评价,但并不把这种差异用于排序和选拔。
学生评价指标相当于试题。如果一项评价指标不能构成学生 的差异,则这项评价指标就是无效指标。这样的指标对评价 没有任何意义,反而会增加评价操作的复杂程度和工作量。
有些评价指标看似非常必要和非常重要,但实际上对评价来 说毫无意义。一个评价操作系统应当对有效指标进行评价, 尽量减少无效评价指标。所谓的有效指标应当具有如下特征。基本性。这些能力是最基本的,具有学科共性。例如,交流、 合作、表达、质疑等,具有明显学科特点的能力指标,建议 采用个性化描述。独立性。评价指标之间不应有相关性,或 者说,具有相关性的评价指标应当尽量合并,这样可以减少 评价指标的数量,简化操作过程。例如,理解能力、分析能 力、思维能力、(语言和文字)表述能力等,尽管它们之间 是有一定区别的,但是具有一定的相关性(边界的模糊性), 为了简化指标体系可以将其合并。如有必要,特殊情况可以 采用个性化描述。可观察性。理解能力、分析能力、思维能 力其实都是通过表述能力反映出来的。在一般情况下,一个 人能够表述清楚的问题,一定是经过了思考、理解和分析并 且已经搞清楚的。至于思维混乱但却善于清晰表达的情况, 一般来讲是比较特殊和少见的,特殊情况可以采用个性化描 述的方式进行评价。区分功能。尽管评价不是为了排序和选 拔,但是指标要具有区分功能。不能显示区分功能的指标无 法体现人的特征。例如,爱党爱国、诚实守信、遵纪守法等, 对于这些指标,在评价时不易区分。更重要的是,对于人的 道德,我们不要根据一件事情或一次性行为就轻率作出结论 性评价。举例来讲,我们发现某人某次没有遵守交通规则, 就由此得出结论认为此人不遵纪守法或法制观念淡薄,这显 然是不适宜的,即使是学生在课堂上违反了纪律,不同的教 师也有不同的判断,况且人的道德表现千差万别,交通法规 和国家法律也不是一个层面上的法规,没有遵守交通法规和违反国家法律绝不属于同一性质的问题。因此,对于一些涉 及道德品质方面的评价指标,在设立和评价时要格外审慎。
导向性。评价指标体系不可能包罗万象,有限的指标一方面 要体现在学生发展最重要的能力品质上,另一方面,要充分 体现出学校倡导的学生发展方向。例如,鼓励学术交流、团 结合作、独立思考、乐善好施等。评价指标体系应当包括学 生在某一阶段应当得到发展的最重要的能力品质;
评价指标 体系应当符合学生的年龄特征和群体特征;
评价指标体系应 当符合学校的发展目标和学生培养目标,应当成为学校办学 特色的重要体现。个性化描述。正因为评价指标不可能涵盖 与人发展有关的所有方面,因此,学校要鼓励教师对学生进 行个性化描述。个性化描述一般不必长篇大论,可以用精炼 的文字记录具体事例(不必评论,因为评论会给以后的读者 造成思维定势)。事例信息积累较多后,一个人的特征就会 被刻画出来。至于根据这些事例如何评价学生,实际上是解 读者需要考虑的问题。
(二)传统评价方式中存在的问题传统的评价方式,如 考试、测评、问卷调查、访谈等,受试者均处在一种应试的 心理状态下。在这种情况下,我们所获得的结果往往有较大 的局限性。例如,传统的测试手段存在时空的局限性,因为 人的某种能力不一定能在我们规定的时间和场合表现出来, 这使得我们测试学生能力的愿望常常难以实现;
传统的测试 手段形式过于单一,仅仅依靠笔试或问答方式获取信息对某些能力的评价是无效的,例如,交流合作的能力、规划资源 的能力等;
测试的目标也存在较大的局限性,对某些重要的 能力指标或品质要素的评价,人们至今尚未引起足够的重视, 尚缺乏理论上的研究和实践上的探索,尚缺乏可行的评价操 作方案,如发现和提出问题的能力、挑战精神、顽强精神、 对外界环境的适应能力等;
受试者复杂的心理活动会给测试 结果带来偶然误差,特别是在一些高利害的、高风险的测试 过程中,受试者的情绪、顾虑、心情、身体状况等,对测试 的结果影响较大,受试者的应试防护心理会给测试结果带来 系统误差,因为受试者在某些情况下会故意提供假象,例如, 对一些敏感问题进行问卷调查,是否署名会对调查结果产生 明显影响。评语也是一种评价的方式,但是传统的程式化的、 充满原则性语言的、千篇一律的评语,往往无法生动的刻画 一个人的个性特征,也难以充分发挥应有的功能:激励、导 向、矫正、自我认知和自我教育等。需要指出的是,目前学 生评价中还普遍存在着一些其他问题,例如,评价指标过分 求全,其中存在着大量的无效指标;
评价结果维度过少,因 为为了进行区分和选拔,人们就必须以一维排序的形式来呈 现评价结果,这样的结果不能体现人的个性特征;
获取评价 信息的方式过于单一,通常情况下使用纸笔测验或问卷调查、 访谈等形式;
就评价结果来讲,定性与定量评价的结果尚无 有效而科学的整合;
从评价的理念上讲,过度期望单次评价 结果的精确性,而忽视了评价作为教育活动而具有的丰富功能;
还普遍存在着操作过于繁杂等问题。
(三)低利害或低风险有利于获得真实的信息一般来讲, 人在意识到自己处于被考察的状态中,其表现会有别于完全 自然放松的状态中的行为。此外,被考察者还常常出于本能 有意掩饰一些信息或有意暴露一些信息。例如,我们利用问 卷调查来了解一个人对一个敏感问题的看法,而这些看法将 与他或她未来的命运相关,则问卷署名或不署名会产生截然 不同的回答。这时,问卷调查结果中将存在明显的“系统误 差”,这种系统误差就是由调查结果的利害所致。通常,一 个人的道德修养水平是难以通过问卷调查或考试来评价的, 而平时人的无意识行为往往是其内心的真实写照。所以,思 想品德课的考试成绩常常与人的思想品德修养完全不相关 ――一个是认知层面的问题,一个是情感心理层面的问题。
学生在非应试状态下的表露往往比应试状态下的表露要更 加真实,例如,教师与学生之间平等的讨论问题时的表现, 参加各种活动时自然的行为表现等。这些行为表现常常不是 学生故意表现出来的,而是无意识的、不自觉的,而且这些 行为是能够被观察到的。教师在经过一段时间的授课之后, 一个班级中总有一些学生最先给教师留下较为深刻的印象, 教师在谈论这些学生的情况时,总能感觉出他或她在某个方 面更加突出,这实际上就是评价。当教师认为某个学生在某 个方面突出时,他实际上已经完成了将这个学生这方面的能 力同群体的比较,而这种比较也是教师在无意识的情况下完成的。对教师来讲,这种感觉是客观真实的,不带有偏见的。
比较就是评价,能够进行比较就是能够进行评价。SXP正是 基于这一点,将教师的“模糊的”、“定性的”感觉记录下 来,并成功地实现了量的转化。从这一点上讲,SXP获取评 价信息的方式,决定了SXP的评价结果更具客观真实性。
(四)关于学生之间的互评目前,在学生评价中提倡相 互评价。这种形式的评价具有一定的积极意义,其积极意义 表现在获取评价信息的途径增多,实际上是增加了评价者观 察的角度。如果没有不良因素影响的话,互评会使得评价更 趋于客观,也有利于发挥评价的教育功能。这需要学校对评 价活动有科学的管理和正确的导向。如果导向正确,管理得 当,互评会对学生起到很好的教育作用,因为它可以促进学 生进行自我比照和反思,促进学生相互学习,相互借鉴,通 过评价促进学生之间的相互交往,取得“见贤思齐”之功效。
鉴于教师很难了解学生生活的各个方面,或者难以深入了解 学生的社会生活和家庭生活,我们可以在学生社会生活和人 际交往方面的评价采用互评的形式。例如,可以结合有关的 学校教育和家庭教育活动,在引导学生确立理想和未来发展 目标的同时,让学生为自己制定个性化的评价指标体系。制 定个性化评价指标体系的过程本身就是很好的自我认知和 自我教育的过程。但是,涉及道德层面的互评指标,需要审 慎研究制定。道德评价目标可以让学生自己设计,这很可能 会成为使学生建立道德自觉约束意识的有效途径。学生的互评应当尽可能降低评价的利害与风险。一般来讲,如果评价 者与被评价者之间存在着利益关系或利益冲突,评价结果就 可能“失真”。典型的行为是“贿选”和“嫉妒”。前者是 因为有利益关系,后者是因为有利益冲突。因此,学生之间 的互评,作为一种鼓励和促进交流的教育活动是好的,如果 作为一种甄选的手段或依据,则往往会产生不良后果。因此, 组织学生之间的互评,一定要事先做好思想教育工作。学生 互评的结果只能作为参考,不能作为结论,甚至不能纳入最 终评价结果。因为学生互评与教师评价不同,它们不属于“等 精度测量”,甚至不属于同类的测量,结果不应当合并(即 使是降低权重),这就如同我们不能将长度和温度相加一样。
组织学生进行互评的目的在于实现学生的自我教育,互评结 果仅可作为教师评价的参照。
(五)“安全优势”与其他传统形式的评价相比,SXP 具有独特的“安全优势”。由于SXP理论上的完善和在技术 上采取了一系列措施,SXP在评价过程中所受的外界干扰较 少,作弊行为几乎不能对最终评价结果产生影响。SXP的安 全优势主要表现在以下几个方面。评价结果随时产生,不断 变化,最终结果产生的时间长(最终结果需要经过三年才能 形成,评价是一个漫长的过程,而不是一次性的行为);
评 价原始信息由系统定期自动封存,且封存后任何人无法改动。
正是由于评价的最终结果是由一系列的阶段性评价结果逐 渐生成的,因此,最终结果一旦出现异常就会被立即发现,进行分析和纠正。教师各自独立完成评价,教师之间由于相 互影响而产生的“系统误差”可以有效降低。如前所述,SXP 所作的评价记录相当于“等精度测量”。任何一个测量数据 都会对评价结果产生影响,但任何一个测量数据都不具有决 定性的作用。教师由于特殊原因缺少部分数据,对最终的结 果也不会造成决定性的影响。如果教师就某一项指标给全体 学生记录标记,则产生的结果是无效评价,对最终结果不产 生影响。每个新的评价周期(6~8周)开始后,教师都尽量 做到“复位清零”,将全体学生放在原来的起点上进行观察 和记录,这样可以避免由于思维定势造成的评价误差。这是 在对教师进行培训时要特别强调的问题。目前的考试方式是 评价学生学业和能力水平的重要手段,SXP是针对传统考试 评价方式存在的缺陷所作的补充。考虑到教师对学生的评价 常常容易受考试分数的影响,所以SXP封存数据的时间与考 试时间有意错开并适当提前,在考试之前封存数据。在实际 操作中,我们要提倡教师随时记录数据。不同身份的人具有 不同的权限。每位评价者提供的评价信息都是严格保密的, 或是具有一定的保密级别,其他人只能在一定权限范围内查 询评价结果,而且,被评价者永远无法知道每个老师的评价 记录,他或她所查到的已经是经过整合处理后的结果。因此, 评价者可以在完全不受外界因素干扰的情况下独立完成评 价。SXP具有自动识别不良信息,进行分析和提醒的功能。
SXP一旦发现有异常数据,如某学生某项评价的数据异常高或低或整个一个群体的数据异常,将提醒管理者对此数据进 行人工分析。(六)“最小不确定度”――SXP作为选拔考 试补充手段的可能性以SXP的结果作为现有的考试选拔方式 的一种补充,这在目前还仅仅是一种设想,但这个设想在理 论上是完全可行的。学生的考试卷面分数中存在着误差,这 一点毋庸置疑。产生误差的原因,有来自于学生方面的,如 考试时的状态失常,身体不佳,或由于其他的偶然因素造成, 也有阅卷误差,如教师的评判差异。既然误差不可避免,那 么每一学科的误差最小就是1分。如果考试是6个学科,每个 学科的分数中都存在至少1分的误差,按照科学测量的误差 理论,6个学科的总分中的误差范围就是6分,如果按照科学 测量结果的表达方式,学生的成绩应当表示为X±6。也就是 说,在6分之差的范围内,不能显示学生能力水平的差异。
打个比喻,由于阅卷造成的6分之差,实际上与掷骰子所造 成的差异相比,其性质是完全等同的。“最小不确定度”是 指假设每个学科存在着至少1分的误差,根据误差理论最终 产生的最小误差范围(实际上等于考试科目数)。根据误差 理论,我们有充分的理由认为,614分的学生与620分的学生 的实际上是没有差别的(至少是没有明显的差异,而高考差 1分就可能决定是否被录取)。这就为我们提出了一种选拔 录取的可能的方式:在6分的范围之内,根据大学专业对能 力特点的要求,参考SXP所提供的学生能力结构特征,来选 择更加适合大学某专业发展的学生。也就是说,在以考试总
扩展阅读文章
推荐阅读文章
推荐内容
钻爱网 www.zuanai.cn
Copyright © 2002-2018 . 钻爱网 版权所有 湘ICP备12008529号-1