感谢您关注“永大英语”!
中学英语听说智能测试研究伍家文
摘要:受测试技术、手段的限制,长期以来都无法对学生英语听说能力进行有效的大规模测试。受“考什么,教什么”思想的影响,中学英语教学普遍存在“重读写、轻听说”的现象,“聋哑英语”问题严重。随着计算机技术的发展,通过“人机对话”,计算机自动评分使英语听说大规模有效测试成为可能。本研究通过人工评分与计算机评分的对比实验,证实了计算机评分与人工评分的一致性,证明了计算机评分具有较高的信度和效度,为英语听说大规模“机测”奠定了基础。
关键词:计算机技术;英语听说;智能测试
引言
《普通高中英语课程标准》(实验)(以下简称《课标》)对六至九级听说方面的课程目标作了详细阐述,要求:六级“能理解口头或书面材料中表达的观点,并简单发表自己的见解。能有效地使用口头或书面语言描述个人经历”;七级“能就熟悉的话题交流信息,提出问题并陈述自己的意见和建议”;八级“能就熟悉的话题与讲英语的人士进行比较自然的交流。能就口头或书面语言材料的内容发表评价性见解”;九级“能就国内外普遍关心的问题用英语进行交谈,表明自己的态度和观点。能做日常生活方面的口头翻译。能利用各种机会用英语进行真实交际”(教育部,2003:7-8)。按照《课标》要求,全国多个省、市已经开始进行口语测试。受测试技术、手段的限制,重庆市除了在高考中安排有规模很小的英语口试外,其他各年级基本上不对口语进行考察。这种评价体系导致了口语教学得不到学校及教师的重视,英语教学中普遍存在着“重读写,轻听说”的现象,“聋哑英语”问题严重。找到一种有效的、大规模的口语测试方法成为当务之急。本研究目的在于完善基于计算机技术的英语听说智能测试技术,建立重庆市英语口语测评体系,促进重庆市英语考试制度的改革。
一、研究背景
(一)国外智能英语听说评价研究发展状况
在国外,重要的语言能力测试中,大多已将听说能力的评价作为重要的考察范围。其中美国教育考试服务中心的托福考试(toefl ibt)就是一项充分重视听、说、读、写综合能力评估的测试。目前,托福考试已将现代技术,特别是网络技术和智能语音技术进行了整合,实现了其评测和管理的高度网络化与自动化,其发展模式成为其他大型考试参考和模仿的对象。雅思考试(ielts)是另一项具有国际影响力的英语语言能力考试,其测试体系也包括听、说、读、写四个模块,雅思考试的机考改革也正在筹划和酝酿之中。另外,美国ordinate公司的phonepass电话口语考试系统已经开始尝试利用智能语音技术,实现自动化口语测试,其成果已经得到美国教育考试处(ets)等权威机构的认可;而法国auralog公司在计算机辅助语言学习方面做了卓有成效的探
索,该公司研发的tell me more学习软件是一整套包括听说能力在内的外语综合能力数字化学习(e-learning)解决方案,产品首次将语音识别技术运用于语言学习,为后续产品的开发和应用提供了良好的基础。
(二)国内英语听说评价发展现状
在国内,自上世纪八十年代交际法教学思想即开始逐渐为公众认识和接受,“听说领先,读写跟上”的教学原则得到了普遍的认可。在教学评价的实践中,英语听力测试在九十年代已经成为高等教育阶段和基础教育阶段多数英语能力测试必考的项目。紧接着教育主管部门对英语口语能力的测试也陆续做了要求,其中在2001年颁布的《全日制义务教育普通高级中学英语课程标准》(实验稿)中,明确提出“基础教育阶段英语课程的总体目标是培养学生的综合语言运用能力。……终结性评价必须以考察学生综合语言运用能力为目标……测试应包括口试、听力考试和笔试等形式全面考察学生语言综合运用能力”(教育部,2001:6)。作为我国基础教育阶段最重要的终结性考试和高等教育入学选拔考试,高考目前在多数省市已经启动了听力和口语测试。但是综合来看,以上评价体系还存在以下两个明显的不足:第一,传统的口语测试是师生“面对面”的测试,通常需要一个以上的教师面对考生来完成测试,这需要在很短的时间内组织大量的主考教师进行测试,使测试的组织难度加大,所以口语测试只是对涉外专业的考生提出要求;第二,人工口语测试的主观性很强,在实际操作中,很容易流于形式而起不到能力甄别的作用。因此,人工测试存在组织难度大、考试成本高、测试效果差的问题。部分省市采用了计算机辅助测试录音、人工评分的方式,虽然降低了组织难度,一定程度上提高了测试量,但仍然存在教师评分的任务繁重、人工评分的成本高昂、评分主观性明显的问题。因此,一种能降低工作量和测试成本,保证了测试结果客观公正,降低考试组织难度的新的测试方法成为人们研究的方向。
二、研究过程
本研究的数据采集时间为2010年5月——2011年3月。采用“英语听说智
能测试系统”或者其演示版为采集工具进行数据采集。数据采集和验证包括以下步骤:
(一)专家命题
所有用于数据采集的试题,由课题组专家在研讨后按照《课标》命题,并由专家进行审核,保证试题本身的有效、可信。目前课题组已经完成总题量1000题以上的随机题库建设,可以在有科学性保障的情况下,满足大规模测试接近于“一人一卷”的测试需要。
(二)系统部署
课题技术保障人员在测试前,在各采集点所提供的普通机房进行系统部署和调试。
(三)考前培训
在试点学校教师的参与和组织下,选取在本区域有代表性的班级和学生,发给英语听说测试的相关说明,便于测试前有充分的了解,再组织学生通过看培训ppt,讲解测试注意事项的方式,模拟真实测试的过程,保证测试数据的真实性。
(四)测试采集
在测试机房,按照正规的测试流程来组织实施测试。
三、研究数据收集与分析
(一)提取样本
课题组在全市范围内进行了测试数据采样。实际采集中小学考生口语测试录音研究样本1296份,另外针对高考在高职院校采集语音样本3110份,共采集研究数据4406份,经研究确定,课题组从2011年1月以前的数据中,随机抽取了100份考生语音样本作为人工和机器打分对比的实验数据。
(二)人工评分
课题组由八名成员组成,其中包括六名一线教师和两名语言测试专家,八名专家通过打分平台以各自的账户登录对所有100份数据进行独立打分,2011年2月收集结果。
(三)实验数据分析
1. 考生成绩分布
此次抽取的考生平均成绩以10分制计算,详细成绩分布情况如图3.3.1.1所示:
其中,优秀率(>8分)为48%,及格率(>6分)为92%,最好考生所得均分9.4分,最差考生所得均分2.71分,所有考生的平均成绩为7.71分。
2. 相关度分析
专家评分的相关度是评分是否可信的重要指标。各专家与基准分的打分相关度,即相关系数,是衡量两个评分专家对同一组数据打分排序吻合程度的统计指标。
相关度的取值范围是–1≤r≤1,当
0<|r|<1时,表示两变量存在一定程度的线性相关,|r|越接近1,两变量间线性关系越密切,|r|越接近于0,表示两变量的线性相关越弱。此次实验,专家及计算机打分相关度统计如表3.3.2.1所示:
考生的平均成绩按照高低进行横向排序,专家之间平均相关度为0.813,人机平均相关度为0.847。相关度排名情况见图3.3.2.1。
3. 打分误差分析
各专家与基准分相比的平均打分误差是同一批数据的两列打分间两两绝对误差值的均值,是衡量两个评分专家对同一数据集打分差异程度的一种直观方式。
通过计算可知,人人平均误差为1.073分,人机平均误差为0.859分。
人机分差累积分布如图3.3.3.1所示:
图3.3.3.1中,将计算机打分与所有专家的平均分进行对比,得到分差。可以看出:90%的考生人机分差在1分以内,100%的考生人机分差在1.7分以内。
四、实验结论
计算机评分与人工评分主要的一致性度量对比指标有两个:一是各专家与基准分的打分相关度,即相关系数,二是各专家与基准分相比的平均打分误差。通过对这两个指标数据的分析,可以测出计算机评分与人工评分的一致性。
(一)相关度指标性能
如果以专家打分相关度和人机打分相关度的比值作为机器打分性能的主要指标,则本次实验中计算机打分的性能如表4.1.1所示:
(二)分差指标性能
如果以专家平均打分误差和人机平均打分误差的比值作为机器打分性能的主要指标,则本次实验中计算机打分的性能如表4.2.1所示:
注:计算机打分性能如果为1,则说明和专家打分性能相当;如果大于1,则说明计算机打分性能优于专家打分性能。
综合以上两个方面的分析得出:计算机在相关度指标和打分误差指标方面都已经超过人工打分性能,具备了优秀的测试性能,在大规模测试中具有突出的优势。
五、结语
和人工测试的方式相比,计算机智能测试具有测试组织容易、人员投入少、效率高、成本低、评测结果更加客观公正等优势。“计算机与外语测试的结合使外语测试的发展又上了一个新台阶”(左焕琪,2002:276),该技术广泛推广、应用将对外语测试带来革命性的变化,也会为外语教学带来深刻影响。英语听说智能测试及管理平台成功应用于2011年重庆市高职院校单独招生考试英语科目考试,2011年、2012年綦江中考都取得了良好的社会反响。从测试期间对考生、家长、教师、考务人员、管理人员共900余人的访谈和问卷调查来看,普遍反馈英语听说智能测试系统运行稳定、测试效果良好,“人机对话”的方式使考生测试焦虑度降低,对英语听说学习的正面导向作用良好。同时,也为我市英语教学带来了较大的影响,越来越多的英语教师在教学中开始重视学生听说能力的培养,特别是口语表达能力的培养。
受技术限制,目前英语听说智能测试还处于半开放状态,人机对话的自由度不够。测试本身存在测试流程过于复杂,设备要求高,维护费用高,推广困难等问题。随着计算机技术的不断发展和教育投资的增加,相信不久的将来能实现真正的“人机”自由对话,英语听说智能测试更加科学,更加普及。
参考文献
[1] 中华人民共和国教育部. 全日制义务教育普通高级中学英语课程标准(实验稿)[s]. 北京:北京师范大学出版社,2001.
[2] 中华人民共和国教育部. 普通高中英语课程标准(实验)[s]. 北京:人民教育出版社,2003.
[3] 左焕琪. 外语教育展望[m]. 上海:华东师范大学出版社,2002.
a study on intelligence test of english listening and speakingwu jiawen
abstract: in our country, restricted by testing technique and means, students’ english listening and speaking skills can’t be tested effectively on a large scale for a long time. the development of computer technology offers an effective means for large-scale test of listening and speaking. the research verifies the credibility and validity of grades rated by computers through the experimental comparison between grades rated by human and by computers, which makes it possible for the application of machine testing in a massive scale.
key words: computer technology; english listening and speaking; intelligence test
(本文首次发表在《基础教育外语教学研究》2013年第5期)