考试打分服务
Exam Sc要么ing
主要环节
更多信息

如有疑问或信息,
请联系:

考试打分服务
(217)244-3839
exams@illinois.edu

工作时间

周一 - 周五
上午8:30 - 12:00
1:00 PM。 - 5:00 PM。

提高你的测试题

一世。客观和主观测试项目之间进行选择

有测试项目两大类:(1)要求学生客观的项目选择几种选择正确的响应或提供一个词或短语回答问题或完成的陈述;和(2)允许学生主观或文章项目组织和举办了原来的答案。目标项目包括多项选择题,是非,匹配和完成,而主观题包括简答短文,扩展响应文章,解决问题和性能测试项目。对于一些教学目的一种或另一种类型的项目可能被证明更有效和适当的。开始了每种类型的测试项目中的相对优势的讨论,通过回答以下问题测试你的这两个项目类型的知识。 

测试项目测验 (圈出正确答案)
1。 作文考试更容易构造比是客观考试。 T F ?
2。 作文考试,需要进行更全面的学生准备和学习时间不是客观的考试。 T F ?
3。 作文考试要求的写作技巧,其中客观考试没有。 T F ?
4。 作文考试,教人怎么写。 T F ?
5。 作文考试在本质上更主观的比是客观考试。 T F ?
6。 客观考试鼓励比作文考试的猜测更是这样。 T F ?
7。 作文考试限制内容涵盖的范围。 T F ?
8。 论文和客观检查可用于测量相同的内容或功能。 T F ?
9。 论文和客观考试是评价知识的学生的水平都不错的方式。 T F ?

测验答案 

1。
真正 文章项目建设比是最客观的测试项目通常耗时更容易和更短的时间。技术上正确和内容适当多项选择和判断正误测试项目要求有广泛的大量的时间来写和修改。例如,一个专业的项目产生的作家在一天的时间只有9-10良好的选择题。
2。   ? 根据研究发现它仍然是不确定的作文测试是否不需要或促进更彻底的(甚至是不同的)学生学习做准备。
3。 真正 写作技巧确实会影响学生的通过作文响应传达正确的“事实”信息的能力。因此,学生有良好的写作能力有优势谁拥有难以表达自己通过写作的学生。
4。 文章不教学生如何写,但他们可以强调的是通过写作来沟通的重要性。经常使用的作文测试可以鼓励知识渊博,但可怜的写作帮助学生提高他/她的写作能力,以提高性能。
5。 真正 文章在性质上更主观的,因为它们的敏感性得分的影响。不同的读者可以不同率相同的反应,同样的读者可以随着时间的推移不同率相同的纸张,字迹,整洁或标点符号可能无意中影响到纸的档次和缺乏匿名的影响分级过程。而不可能消除,得分影响或偏差可以通过随后在本小册子中讨论程序被最小化。
6。 ? 两个项目类型鼓励某种形式的猜测。多项选择题,是非和配套项目可以通过盲正确回答猜测,但可以回答文章项目圆满通过写得很好唬人。
7。 真正 由于由学生对一篇短文回答这个问题所需要的时间范围内,只有很少的作文题可以包含在一个教室考试。因此,目标项的更大数量的可在相同的时间进行测试,从而使测试以覆盖更多的内容。
8。 真正 Both item types can measure similar content or learning objectives. Research has shown that students respond almost identically to essay and objective test items covering the same content. Studies1 by Sax & Collet (1968) 和 Paterson (1926) conducted f要么ty-two years apart reached 该 same conclusion:

“......似乎没有来自这两类考试所测量的东西相同的结论逃脱。” (帕特森,第246页)

这个结论并不奇怪;毕竟,一个良好的书面文章项目要求学生(1)有知识的储存,(2)能够涉及的事实和原理,以及(3)能够对这些信息组织成一个连贯的和逻辑的书面表达,而客观的测试项目要求学生(1)有知识的储存,(2)能够涉及的事实和原理,以及(3)能够对这些信息组织成一个连贯的和合乎逻辑的选择几个备选方案中。
9。 真正 客观和作文测试项目是衡量学生成绩好设备。然而,如前面的测验答案看出,存在特定的测量的情况下一个项目类型是比另一个更合适。以下是使用任一客观或短文测试项目的一组建议:(改编自罗伯特升玉宝,教育测量,1972年,第144页的要领。)。
1gilbert萨克斯和leverne秒。夹头,教育测量杂志,第一卷“的回忆和对学生的成绩,多项选择题测试的效果进行了实证比较”。 5(1968),169-73。 

唐纳德·克帕特森,“做新老型考试测量不同的心理功能?”学校和社会,第一卷。 24。(1926年8月21日),246-48。 

何时使用文章或客观测试

作文测试是特别合适的:
  • 要测试的组小,该测试将不被重复使用。
  • 要鼓励和奖励学生技能的发展书写。
  • 你更喜欢探索比测量他/她的成就学生的态度。
  • 你更自信的你的能力作为一个重要的,公平的读者不是好客观测试项目富于想象力的作家。
客观的测试,尤其是在适当的时候:
  • 待测试的基团是大和测试可以重复使用。
  • 高度可靠的测试成绩必须尽可能有效地获得越好。
  • 从可能的测试得分的影响的评价,绝对的公平,以及自由的公正性(例如,疲劳,缺乏匿名的)是必要的。
  • 你更自信的你比你的正确判断作文考试答案的能力清楚地表达客观测试项目的能力。
  • 有对分数比快速测试准备迅速的报告更多的压力。
无论是文章或客观的测试,可用于:
  • 测量几乎所有重要的教育成果笔试可以测量。
  • 测试的理解和适用原则的能力。
  • 测试能力,批判性的思考。
  • 测试解决问题的能力。
  • 测试能力来选择相关的事实和原则,并把它们结合对复杂问题的解决方案。 
除了上述建议,是要认识到某些项目类型是非常重要的 更适合 比其他测量特定的学习目标。例如,学习要求学生目标 展示 要么 显示可通过性能测试项目得到更好的测量,而要求学生目标 解释 要么 来描述 可以通过作文测试项目得到更好的测量。学习与某些项目类型目标的预期可以帮助您选择合适类型的测试项目为自己的课堂考试,以及提供更高程度的测试有效性的匹配(即,测试的内容应该进行测试)。为了进一步说明,提供了以下页面上的几个样本的学习目标和相应的测试项目。 

学习目标 最合适的测试项目
学生将能够进行分类和命名的人类骨骼系统的各个部分。 客观测试项(M-C,T-F,匹配)
学生将能够批评和评价其组织的基础上,另一位学生的英语作文。 作文测试项目(扩展响应)
学生将展示实验室安全技能。 性能测试项目
学生将能够举出吐温的哈克贝利·费恩用讽刺的四个例子。 作文测试项目(简答)

你已经决定为使用一个客观的,文章或客观和作文考试后,下一步就是选择您希望包括在考试目标或文章项目的种类(S)。帮你做出这样的选择,不同类型的目标和论文项目在本手册的下一节介绍。在各种项目中自身的优势条件和限制使用做了简要说明,并进行相互比较。还提出了一套一般建议为每个项目变化的建设。 

II。使用和写作测试项目建议

多项选择测试项目

多项选择项目由两个部分组成:(a)所述杆,其识别的问题或问题和(b)的响应的替代。要求学生选择一个替代方案,最好的完成陈述或回答问题。例如,
    样品选择题项

    (一种) 项目干:以下哪些是化学变化?
    (b)中 应对方案:
    一种。
    醇的蒸发
    的水冻结
    *C。
    石油燃烧
    d。
    蜡熔融

    *正确的响应

    在使用多项选择题的优势

    选择题可以提供...

    • 多功能测量的认知能力各个层面。
    • 高度可靠的测试成绩。
    • 进球效率和准确性。
    • 学生成绩或能力的客观测量。
    • 宽采样的内容或目标。
    • 降低的猜测因素相比,真假项目。
    • 不同的响应的替代,可以提供诊断反馈。

    在使用多项选择题的限制

    多项选择题...

    • 是困难和耗时的构造。
    • 导致一个教练有利于事实的简单的回忆。
    • 放置高度对学生的阅读能力和教师的写作能力的依赖。

写选择题测试项目建议



1。 可能的情况下,国家干作为一个直接的问题,而不是一个不完整的陈述。
不可取: 合金通过通常产生...
可取的: 如何允许通常产生的?

2。

目前在干一个明确的,明确的和奇异的问题或问题。
不可取: 心理学...
可取的: 心理和行为的科学叫...

3。

消除过度的措辞或从杆不相关的信息。
不可取: 在熨烫她的正规,简烧她的手不小心被热熨斗。这是由于转移的热量是...
可取的: 其中传热下列方式解释了为什么简的手被烧伤后,她摸热铁?
4。 包括在,否则可能会在每个替换重复杆任何字(一个或多个)。
不可取: 在美国全国大选总统正式
一种。 由人民选择的。
国会议员选择。
C。

由众议院选择。

* D。 由选举团选择。
可取的: 在美国全国选举总统正式被选定
一种。 人民。
国会议员。
C。 众议院。
* D。 选举团。

5。

使用负陈述茎谨慎。当使用时,下划线和/或利用负字。
不可取: 下列哪项不是引为肯尼迪政府的成就是什么?
可取的: 下列哪项不是引为肯尼迪政府的成就是什么?项目方案

6。

让所有的替代合理和有吸引力的少知识或熟练的学生。什么样的流程光合作用最近的对立面?
不可取 合意

一种。

消化

一种。

消化

松弛

同化

*C。

呼吸

*C。

呼吸

d。

用力

d。

分解代谢

 

7。使替代语法对方,并与阀杆相一致平行。
不可取: 你会做最提前原子的发现对医学的应用程序?
*一种。 标准化技术治疗的患者。

列车平均医生应用放射治疗。

C。

取消对使用放射性物质的限制。

d。

建立由训练有素的放射治疗专家人员的医院。

可取的:

你会做最提前原子的发现对医学的应用程序?
*一种。

对治疗的患者标准化技术的发展。

平均医生的放射性治疗应用的培训。

C。

对使用的放射性物质去除限制性的。

d。

除了训练有素的放射治疗专家来医院职员。

8。使方案互斥的。

不可取:

牛奶,一个10岁的孩子应该喝的日最低需要量

一种。

1-2杯。

* B。

2-3眼镜。

*C。

3-4眼镜。

d。

至少4个眼镜。

可取的:

什么是牛奶一个10岁的孩子应该喝每日最低需要量?
一种。 1块玻璃。
2个眼镜。
*C。 3个眼镜。
d。 4个眼镜。

9。当在一些逻辑顺序可能的,本替代品(例如,按时间顺序,最多到最少,按字母顺序)。
在上午7时两辆卡车离开一家小餐馆和旅行北部。一个卡车平均每小时42英里和其它卡车平均每小时38英里。在什么时候他们会是相隔24哩?

不可取

合意

 

一种。

下午6时。

 

一种。

凌晨1点

 

晚上9点

 

上午6点

 

C。

凌晨1点

 

C。

早上9点。

 

* D。

下午1时。

 

* D。

下午1时。

 

上午6点

 

下午6时。

10.可以肯定,只有一个到该项目正确或最好的回应。


不可取:

在课堂测试的两个最期望的特性是有效性和

一种。

精确。

* B。

可靠性。

C。

客观性。

* D。

一致性。

可取的:

在课堂测试的两个最期望的特性是有效性和

一种。

精确。

* B。

可靠性。

C。

客观性。

d。

标准化。

11。使替代长度大致相等。


不可取:

低个人收入在美国最普遍的原因是

*一种。

缺乏有价值的生产性服务进行销售。

不愿工作。

C。

自动化。

d。

通货膨胀。

可取的:

什么是低个人收入在美国最普遍的原因是什么?

*一种。

缺乏有价值的生产性服务进行销售。

人口的整体不愿意工作。

C。

国家对自动化的依赖增加。

d。

越来越多国家的通胀水平。

 

12。避免在不相关的线索如语法结构,公知的口头协会或茎和回答之间的连接。


不希望的:(语法线索)

列岛被称为:

*一种。

群岛。

半岛。

C。

大陆。

d。

地峡。

不希望的:(口头关联线索)

测试的可靠性可以通过系数来估计:

一种。

测量。

* B。

相关。

C。

测试。

d。

错误。

不可取:(茎和答案线索之间的连接)

高度到水大坝建成取决于

一种。

大坝后面的reservcte的长度。

水的体积坝后。

*C。

高度的坝后水。

d。

加强壁的强度。

每个项目13。使用至少四种选择,以降低获得该项目通过正确猜测的可能性。

14。随机地分布在整个具有近似替代品,B,C,d和e作为正确响应的相同的比例测试替代位置中的正确的响应。

使用替代品“以上都不是”和“所有上述的”节制。使用时,这些替代应该偶尔作为正确的响应。

目录

真假测试项目


真伪项能够被写入的三种形式之一:简单的,复杂的,或化合物。答案可以由只有两个选择(简单),比两种选择(复合物),或两种选择加上一个条件完成响应(化合物)以上。每种类型的真 - 假项目的一个例子如下:

 

    品尝真正的假项目:简单

    道德的收购是一个发展的过程。

    真正

    品尝真正的假项目:复杂

    道德的收购是一个发展的过程。

    真正

    意见

    采样真 - 假项:化合物

    道德的收购是一个发展的过程。

    如果这种说法是假的,让他假?

    真正


    使用真假项目优势
    真假项目可以提供...

     

    • 的每测试时间单元的内容或目标的最宽的采样。
    • 进球效率和准确性。
    • 多功能测量的认知能力各个层面。
    • 高度可靠的测试成绩。
    • 学生成绩或能力的客观测量。
    使用真假物品的限制
    真假项目...
    • 结合极高的猜测因素。简单的真假项目,每个学生都有一个50/50的机会的正确回答的项目没有项目的内容的任何知识。
    • 常可导致导师写的,由于写这是毫不含糊地真或假报表的难度模棱两可的语句。
    • 不改变的能力,以及其他项目类型学生之间的歧视。
    • 可通常包括比其他项目类型更多不相干的线索。
    • 常可导致一个教练看好琐碎知识的测试。

写真假测试项目建议


1。

在基地是绝对真或假,无资格或例外声明真假的项目。

不可取:

近视是遗传起源。

可取的:

遗传学家和眼科专家认为,易患近视是遗传的。

2。

快递物品语句简单,尽可能明确。

不可取:

当你看到一个与高速公路的标志,上面写着“80号州际公路”你知道,这条道路的建设和维护是建立由国家和联邦政府维护。

可取的:

建设和州际公路的维护由联邦和州政府提供。

3。

表达每个测试项目单一的想法。

不可取:

如果在其表面上的大气压力增加,并且更多的热量被施加到容器中的水将在更高的温度下沸腾。

可取的:

如果在其表面上的大气压力增加的水将在更高的温度下沸腾。
和/或
如果有更多的热量被施加到容器的水将在更高的温度下沸腾。

4。

包括足够的背景资料和资格,使该项目不依赖于一些特殊的,不常见的知识的能力,以作出正确的反应。

不可取:

教育的第二个原则是,个人收集的知识。

可取的:

根据杜威,教育的第二个原则是,个人收集的知识。

5。

避免起吊从文,演讲或其他材料的语句,单靠内存不会允许一个正确的答案。

不可取:

对于每一个动作有相反的和相等的反作用力。

可取的:

如果你站在独木舟和前投救生衣另一个独木舟,机会是你的独木舟会向后猛拉。

6。

避免使用负陈述项目作了发言。


不可取:

最高法院是不是由九名法官。

可取的:

最高法院由九名大法官。

7。

避免使用不熟悉的词汇。

不可取:

根据一些政客,死刑的存在的理由是报应。

可取的:

根据一些政客,理由死刑的存在是报应。

8。

避免使用限定词的具体哪会允许测试明智的,但没有准备好考生作出正确的反应。具体的限定词是指像扫地术语“全部”,“总是”,“没有”,“从来没有”,“不可能”,“不可避免的”等语句,包括这样的条款很可能是假的。在另一方面,使用限定词排位如陈述“通常”,“有时”,“经常”等,都可能是正确的。当语句确实需要使用特定的限定词的,确保他们同时出现在真假项目。

不可取:

所有代表大会会议由总统呼吁。(F)
最高法院经常对法律的合宪要求。 (t)的
客观测试是通常更容易得分比的作文测试。 (t)的

可取的:

(当使用特定限定词扭转的预期结果。)
一个三角形的内角之和为总是1800。 (t)的
给定的化合物的每个分子是化学上相同的一切该化合物的其它分子。 (t)的
检流计的仪器平时用于电能在家庭中使用的计量。 (F)

9。

虚假项目往往不是真正的项目更高度歧视。因此,使用更多的假项目不是真正的项目(但不超过15%的额外虚假资料)。

匹配测试项目

在一般情况下,匹配的项目包括提出了关于考试页面的左侧,放置在页面右侧的回应一列刺激的列。学生必须配合一个给定的刺激相关联的应答。例如,
    样品的匹配测试项

    方向:

    上线到每个事实陈述的左边,写这最好成绩说明语句的发生原理的信。每个原理可以多次使用。

    事实陈述

    原则

    1。

    灵长类动物化石首先出现在新生代岩层,而三叶虫遗体元古代岩石中发现的。

    2。

    北极和南极地区人口稀少。

    3。

    植物没有神经系统。

    4。

    大型煤层在阿拉斯加存在。

    一种。

    有过在地球上气候的深刻变化。

    协调和行动的集成是植物比动物一般较慢。

    C。

    有结构和功能从低到高的生命形式的增加的复杂性。

    d。

    所有的生命来源于生活,生产自己的一种活的生物体。

    光对生命的限制因素。

    使用匹配的项目优势

    配套项目
    • 需要阅读和响应很短的时间,让您支付更多的内容。
    • 提供学生成绩或能力的客观测量。
    • 提供高度可靠的测试成绩。
    • 提供得分效率和准确性。
    使用匹配的项目限制

    配套项目
    • 有需要比信息的简单回忆更难衡量的学习目标。
    • 是难以构造由于选择一组共同的刺激和反应的问题。

写作匹配测试项目建议


1。

包括方向,其清楚地说明用于匹配与响应的刺激的基础。解释响应是否可以多次使用,并注明在哪里写答案。

不可取:

方向:

和以下相符。

可取的:

方向:

上线中第i列的每个标识的位置和特性的左侧,写入该国的第二栏的信是最好的限定。在二列中的每个国家可以使用一次以上。

2。

仅使用均质材料在匹配项。

不可取:

方向:符合以下。

 

1。

___

一种。

氯化钠

2。

___

发现镭

费米

3。

___

C。

NH3

4。

___

由人第一次核裂变的一年

d。

H2O

5。

___

1942

 

 

 

F。

居里

可取的:

方向:

上线中第i列的各化合物的左侧,写入化合物的式的第二栏提供的字母。使用每个式只有一次。

 

我列

列二

1。

___

一种。

H2SO4

2。

___

盐酸

3。

___

C。

氯化钠

4。

___

硫酸

d。

H2O

h2hcl

3。

安排一些系统的订单,如果可能的(例如,按时间,按字母顺序排列)的回复列表。
方向:上线在列i各自定义的左侧,写入被描述在二列中的防御机制的字母。使用每个防御机制只有一次。

 

 

 

不可取

 

合意

我列

 

 

列二

 

 

____1。

狩猎理由来支持自己的信仰。

一种。

合理化

一种。

现实的否定

____2。

接受他人的价值观和行为准则作为自己,甚至当他们违背了先前的价值观。

鉴定

鉴定

____3。

归因于他人自己无法接受的冲动,思想和欲望。

C。

投影

C。

内射

____4。

忽略不愉快的情况下,主题景点。

d。

内射

d。

投影

 

 

现实的否定

合理化

避免语法或其他线索,正确的回答。
不可取:

方向:为了完成左边的句子匹配以下。

 

___

1。

火成岩形成

一种。

的7的硬度。

___

2。

煤的形成需要

与结晶岩。

___

3。

一个晶洞填满

C。

变质岩。

___

4。

长石被列为

d。

热和压力。

 

 

 

通过熔岩的固体ification。

可取的:

避免因语法线索完成句子。

保持匹配的项目简单地说,10岁以下限制刺激的名单。

包括比刺激更多的答复,以帮助防止通过排除法回答。

可能的情况下,通过包括在响应中只列出短短语或单个词减少的读取时间的量。

目录

完成测试项目


完成项目要求学生回答问题或在空白填充正确的单词或短语来完成一个不完整的陈述。例如,

    样品完成项目

    根据弗洛伊德的人格是由三大系统中,_________,________的和________的。

    在使用完成项目优势
    完成项目
    • 可以提供的内容的宽采样。
    • 可以有效地测量的认知能力较低的水平。
    • 可以最大限度地减少猜测相比,多项选择题或真假项目作为。
    • 通常可以提供学生成绩或能力的客观度量。

    在使用完成的项目限制
    完成项目

    • 是难以构造,使得所期望的响应被清楚地表明。
    • 有需要比信息的简单回忆更难衡量的学习目标。
    • 可通常包括比其他项目类型更多不相干的线索。
    • 更耗时比选择题或真假项目时得分。
    • 更难以得分,因为一个以上的答案可能要被认为是正确的,如果没有正确准备的项目。

对于写入完成测试项目建议

1。 省略从语句只显著的话。
不可取:

每一个原子具有一个中央(核心)所谓的核心。

可取的:

每一个原子具有中心芯称为(n)的(核).

2。

不从本意丢失的声明忽略了这么多字。

不可取:

在___________were埃及作为该____________were波斯和__________were以色列早期部落。

可取的:

法老是埃及的该__________were波斯和____________were以色列早期部落。

3。

避免语法或其他线索,正确的回答。

不可取: 大多数美国的图书馆是根据组织(杜威)十进制系统。

可取的:

该组织系统所使用的大多数美国的图书馆吗?(杜威十进制)

4。

可以肯定的只有正确的响应。

不可取:

,每年落叶树木种子轴承,普通).

可取的:

,每年落叶的树木被称为(落叶).

5。

使长度相等的空白。

不可取:

在希腊神话中,火神是儿子(木星)(JUNO).

可取的:

在希腊神话中,火神是儿子(木星)(JUNO).

6。

如果可能的话,学生已经提出了明确的问题后,在声明的末尾删除单词。

不可取:

(122。5)是氯酸钾的分子量。

可取的:

氯酸钾的分子量是(122。5).

7。

避免直接从文本,讲座或其他来源起重声明。

8。

限制为单个单词或短语所需的响应。

作文测试项目

作文测试可能是最流行的所有类型的教师做测试。在一般情况下,课堂作文测试由少数到学生有望证明他/她的能力(一)回忆事实性知识,(二)组织这方面的知识和(c)目前的知识逻辑问题的,综合问题的答案。一篇文章测试项可以被分类为一个扩展响应文章项或短答案文章项。后者要求在形式或范围方面更受限制或有限的答案。每种类型的文章项的一个例子如下。
    样品扩展响应文章项
    解释S-R(刺激反应)和S-O-R(刺激生物体响应)的个性理论之间的差。包括在你的答案(一)这两个理论的简要说明,(二)用于研究每两个理论的两种理论和(c)研究方法的支持者。 (10分20分钟)

    样品简答文章项目
    识别用于研究S-R(刺激反应)和s-O-R(刺激生物体响应)的人格理论研究方法。 (5分,10分钟)

    在使用文章项目优势
    文章项目
    • 是构建比多数其他类型的项目更容易消耗和更少的时间。
    • 提供测试学生组成的答案和以逻辑的方式呈现其能力的装置。
    • 可以有效地测量更高阶的认知目标(例如,分析,合成,评价)。

    在使用文章项目限制
    文章项目

    • 不能测量大量内容或目标。
    • 一般提供低试验和测试射手可靠性。
    • 需要大量的教师的时间来阅读和档次量。
    • 一般不提供学生的成绩或能力(受到偏见的平地机的一部分)的客观度量。

写文章的测试项目建议

1。 准备一个引起你要测量的行为类型作文的项目。
学习目标:

学生将能够解释正常的曲线如何作为一个统计模型。

不可取:

描述方面正常的曲线:对称,形态,峰度和偏度。

可取的:

先简单介绍一下正态曲线如何充当估计和假设检验的统计模型。

2。

短语,使学生的任务是明确表示每个项目。

不可取:

讨论这导致了1929年的股市崩盘的经济因素。

可取的:

识别三大经济条件而导致1929年股市崩盘简要的讨论在正确的时间顺序和在一个段落每个条件表示三个因素是如何相互关联。

3。

每个项目表示的点值或重量和用于回答的估计时间限制。

不可取:

比较BRET哈特和马克·吐温的著作中的设置,人物塑造的深度,以及他们的主角对话风格方面。

可取的:

比较BRET哈特和马克·吐温的著作中的设置,人物塑造的深度,以及他们的主角对话风格方面。 (10分,20分钟)

4。

问将引发其上的专家可能会同意一个答案比另一个更好的反应的问题。

5。

避免给学生一个选择,可选的项目中,因为这大大降低了测试的可靠性。

6。

一般建议在课堂上考试管理若干简答的项目,而不是只有一个或两个扩展响应项。

对于作文打分的项目建议

1。

选择评分模型。两个比较常见的评分模型是分析得分和全球质量。

分析评分:

每个答案进行比较,理想的答案和点被分配列入必要元素。等级是基于累积的积分无论是绝对的数量(即,A = 10或更多个点,B = 6-9 PTS。等)或相对(A =顶端15%的分数,分数B =下一个30%,等等。)

全球质量:

每个答案被读取和分配一个得分或者基于所述响应的总质量或在响应相对于其他学生的答案的总质量(例如,等级,总积分)。

实例文章项目和分级模式
“美国人是一个混乱的人没有意义的道德价值的。大家都知道,棒球比食物和钢远不如必要的,但他们付出球的球员比农民和钢铁工人多了很多。”
为什么?用3-4句话来表示一个经济学家会如何解释上述情况。

    分析评分

    要被包括在响应必需的元件

    薪酬是基于相对于这种服务的供求。

    3

    出色的球的球员并不多见。

    2

    球俱乐部对优秀选手的高需求。

    2

    响应的清晰度

    2

     

    ____

     

    9分。


    全球质量

    相比于理想的答案分配在书面答复的总体质量分数或等级。或者,比较在排序文件分为三堆其他学生反应的响应的综合素质:

     

    低于平均平均高于平均

    阅读和排序每个堆栈再次devide成三个堆

    低于平均平均高于平均
    / | \ / | \ / | \
    低于平均。以上低于平均。以上低于平均。以上
    平均。平均。平均。平均。平均。平均。

    总共,九和歧视可用于以这种方式分配的测试成绩。堆栈或歧视的数量可以改变,以满足您的需求。

2。

尝试以允许因素无关的被测量的学习结果影响你的分级(即,手写,拼写,整洁)。

3。

才去到下一个项目阅读并年级所有班级回答一个项目。

4。

不看学生的姓名,以避免可能出现的优惠待遇阅读和品位的答案。

5。

偶尔洗牌试卷答案的阅读中,以帮助避免任何系统性阶效应(即Sally的“B”的工作始终遵循吉姆的“一:工作因此看起来更像是‘C’工作)。

6。

可能的情况下,请另一位教练来评判学生的响应。

解决问题的测试项目

主观测试项目的另一种形式是解决问题或计算考试的问题。这些项目提出了一个问题的情况或任务的学生,需要的工作流程演示和正确的解决方案,或者只是一个正确的解决方案。这种测试项目被列为主观型项目由于用来评定项目响应的程序。教师可以分配全部或部分贷款,这取决于工作程序提出的质量和种类正确或不正确的解决方案。一个解决问题的测试项目的一个例子如下。

    例如解决问题的测试项目
    有人算过75点的男人会70日内完成对新的高速公路带。当工作计划开工时,发现需要发送的另一条道路项目25人。这将多少天需要更长的时间来完成带?展示您的全部或部分信贷工作。

    使用解决问题的项目优势
    解决问题的项目
    • 尽量减少通过要求学生提供原始的反应,而不是从几个备选方案中选择的猜测。
    • 更容易比构造是亩

      ltiple选择题或匹配的项目。
    • 可以最适合衡量其重点是运用技能或知识的问题的解决方案的能力,学习目标。
    • 可以测量一个广泛的内容或目标的量。

    使用解决问题的项目限制
    解决问题的项目

    • 一般提供低试验和测试射手可靠性。
    • 需要广泛的教练时间量来评判。
    • 一般不提供学生的成绩或能力(受到偏见的平地机的一部分时,部分信贷被给予)的客观测量。

写作解决问题的测试项目建议

1。 明确界定和说明问题。
不可取:

一个汽车碰撞时,该车在490米/秒2的速度减慢。什么是作用于一个100公斤重的驱动力的大小和方向?

可取的:

一个汽车碰撞时,该车在490米/秒2的速度减慢。使用汽车作为参考帧,什么是作用于一个100公斤的驱动克力的大小和方向?

2。

提供方向,明确告知响应号召类型的学生。

不可取:

一个美国人在巴黎旅游发现他体重70公斤。当他离开美国,他体重144磅。什么是他体重的净变化?

可取的:

一个美国人在巴黎旅游发现他体重70公斤。当他离开美国,他体重144磅。什么是他磅净重变化?

3。

状态方向的学生是否必须显示全部或部分信用他/她的工作程序。

不可取:

双凹透镜是由玻璃制成的,其中n = 1。50。如果两个透镜表面的曲率半径均为30.0厘米,什么是透镜的焦距?

可取的:

双凹透镜是由玻璃制成的,其中n = 1。50。如果两个透镜表面的曲率半径均为30.0厘米,什么是透镜的焦距?展示你的工作获得全额或部分贷款。

4。

显然单独的项目部分,并指出他们的点值。
一个人离开他的家和驱动器的约定以每小时50英里的平均增长率。抵达后,他找到了一份电报,建议他立即返回。他抓住那把他背在时速300英里的平均率的平面。

不可取:

如果总行驶时间为1小时45分钟,多久没它带他去飞回来?如何远离他家是惯例?

可取的:

如果总行驶时间为1小时45分钟:


(1)

没多久带他去飞回来? (1角)

(2)

如何远离他家是惯例? (1角)

展示您的全部或部分信贷工作。

5。

使用数字,条件和创建一个现实问题的情况下。

不可取:

汽车称重2840 N(约640磅)以时速300英里的速度行驶。什么是汽车的动能?展示你的工作。 (2分)。

可取的:

汽车称重14200 N(约3200磅)在12米/秒的速度行驶。什么是汽车的动能?展示你的工作。 (2分)。

6。

问得到响应的问题上,专家们能够同意一个解决方案和一个或更多的工作程序是比别人做得更好。

7。

教室给药前通过每个问题工作,仔细检查的准确性。

性能测试项目

性能测试项目的目的是评估一个学生在模拟情况下正确执行的能力(即一种情况,即学生将被最终有望应用于他/她的学习)。模拟的概念是在性能测试中央;性能测试将模拟在一定程度上真实的生活情境来完成评估。从理论上讲,性能测试,可以构建任何技能和现实生活中的情况。在实践中,大多数的性能测试已经开发出用于职业教育,管理,行政,领导,沟通,在各种模拟情况的人际关系和体育技能的考核。性能测试项目的说明性示例在以下提供。
    样品性能测试项目
    假设一些的城市规划课程的教学目标包括学生的有效利用覆盖在各种“现实生活中的”常见的是城市规划专业的情况下,过程中的原则能力的发展。性能测试项目可以用它代表一个“现实生活”情况的特定情况呈现学生衡量这种发展。例如,
    城市规划委员会做了专业充当顾问和批判书面建议,提出在董事会会议当天晚上被认为是最后一分钟的请求。专业会议之前到达,并有一小时分析倡议书,并准备他的批评。批判演示文稿,然后在董事会上提出口头;董事会或群体的成员的反应,包括特定点或由专业的立场告知袭击的解释请求。

    性能测试,旨在模拟这种情况会要求学生进行测试角色扮演专业的部分,而学生或教师作用形势的其他角色。 “专业化的”各方面性能将比观察和由几个法官必要的背景评级。那么评级可能被同时使用,以提供与他/她的长处和短处的诊断学生和促进学生能力的全面总结评价。

    使用性能测试项目优势
    性能测试项目
    • 可以最适合衡量它着眼于学生的应用技能和知识在现实生活中的能力学习目标。
    • 通常提供一定程度的测试有效性标准纸笔测试项目不可能的。
    • 是在精神领域衡量学习目标非常有用。

    使用性能测试项目的限制
    性能测试项目
    • 是困难和耗时的构造。
    • 主要用于单独,而不是测试学生的测试组。因此,它们是相对昂贵的,费时的,并且不方便形式的测试。
    • 一般提供低试验和测试射手可靠性。
    • 一般不提供学生成绩或能力(受偏压在观察者/平地机的一部分)的客观量度。

写入性能测试项目建议

  • 准备一个引起你要测量的行为类型的项目。
  • 清楚地识别和解释模拟的情况给学生。
  • 使模拟的情况为“栩栩如生”成为可能。
  • 提供方向,明确告知响应号召类型的学生。
  • 在适当的时候,清楚地说明在方向上的时间和活动限制。
  • 充分的培训观察员(S)/射手(一个或多个),以确保他们在得分适当的行为公平。

III。两种方法用于评估测试项目的质量

小册子的这一部分介绍了您的测试项目的质量反馈收集两种方法。这两种方法包括使用自查清单和检验项目质量学生评价。您可以使用从任一方法收集的信息,以确定您的项目写的长处和短处。 

清单评估测试项目 


通过检查你觉得你已经按照建议评估您的测试项目。 

多项选择测试项目

____ 可能的情况下,规定的干作为一个直接的问题,而不是一个不完整的陈述。
____ 呈现在树干上确定的,明确的和奇异的问题或问题。
____ 消除过度的措辞或从杆不相关的信息。
____ 包括在可能以其他方式重复在每个备选干任何字(S)。
____ 使用负陈述茎谨慎。当使用时,下划线和/或大写负字(一个或多个)。
____ 作出一切合理的替代品和有吸引力的少知识或熟练的学生。
____ 做替代语法彼此平行,并与阀杆相一致。
____ 提出替代方案是互斥的。
____ 可能的情况下,呈现在一些逻辑顺序的替代品(例如,按时间顺序,最多到最少)。
____ 确信有每个项目只有一个正确或最好的回应。
____ 由替代品长度大致相等。
____ 避免无关的线索如语法结构,公知的口头协会或茎和回答之间的连接。
____ 用于每个项目至少有四个备选方案。
____ 随机分布在整个具有近似替代品,B,C,d的同样的比例,和e为正确的响应测试中的替代位置中的正确的响应。
____ 使用的替代品“以上都不是”和“所有上述”谨慎。使用时,这种替代品偶尔正确的响应。

真假测试项目


____
在这是绝对真的还是假的,没有资格或例外陈述基于真假项目。
____ 表示该项目语句简单,尽可能明确。
____ 表示对每个测试项目单一的想法。
____ 包括足够的背景资料和资格,以便正确地作出反应的能力并不取决于一些特殊的,不常见的知识。
____ 避免起吊从文,演讲或其他材料的语句。
____ 使用负说明项目作了发言避免。
____ 避免使用不熟悉的语言。
____ 避免使用限定词的具体如“所有”,“总是”,“没有”,“从来没有”等,以及符合条件的限定词,如“通常”,“有时”,“经常”,等等。
____ 使用更多的假项目不是真正的项目(但不超过15%的额外虚假资料)。

匹配测试项目

____ 包括方向这清楚说明的基础的刺激与响应匹配。
____ 解释一个响应是否可以使用超过一次,并表示那里写答案。
____ 仅使用均质材料。
____ 可能的情况下,安排在一些系统的顺序(例如,按时间顺序,字母顺序)的响应列表。
____ 避免语法或其他线索,正确的回答。
____ 保持项目简介(仅限刺激的清单,10岁以下)。
____ 包括比刺激更多的答复。
____ 可能的情况下,通过包括在响应中只列出短短语或单个词减少读取时间。

完成测试项目

____ 只省略从语句显著的话。
____ 没有从本意丢失的说法忽略了这么多字。
____ 避免语法或其他线索,正确的回答。
____ 包括每个项目只有一个正确答案。
____ 相等长度的空白。
____ 可能的情况下,删除的话,在声明的最后,学生提出了一个明确的问题后。
____ 避免直接从文本,讲座或其他来源起重声明。
____ 限于单个词或短语所需的响应。

作文测试项目

____ 该行为引起的,你想测量类型准备项目。
____ 措辞的每个项目,使学生的任务被明确指出。
____ 每个项目的点值或重量和用于回答的估计时间限制指示。
____ 那引起的反应提出的问题上专家们可能认为,一个答案是比别人做得更好。
____ 避免给学生可选项目中进行选择。
____ 施用几个短答案的项目,而不是1或2扩展响应项。

分级作文测试项目

____ 选择的适当分级的模型。
____ 尽量不容许它是不相关的被测量的学习结果影响你的分级(例如,手写,拼写,整洁)的因素。
____ 阅读才去到下一个项目分级所有类的答案一个项目。
____ 读和不看学生的姓名,以避免可能出现的优惠待遇分级的答案。
____ 答案的读取过程中偶尔洗牌论文。
____ 可能的情况下,问另一位教练来评判学生的响应。

解决问题的测试项目

____ 明确并解释这个问题给学生。
____ 提供了方向,明确告知响应号召类型的学生。
____ 在方向规定的学生是否必须显示全部或部分信贷工作程序。
____ 清楚地分开项部件和表示其点的值。
____ 用过的数字,条件和产生的现实问题的情况。
____ 那引起的反应提出的问题上专家们能够同意一个解决方案和一个或更多的工作程序是比别人做得更好。
____ 通过课堂给药前每一个问题的工作。

性能测试项目

____ 准备了引起的行为,你想测量类型的项目。
____ 明确指出并解释了模拟的情况给学生。
____ 所做的模拟情况为“栩栩如生”成为可能。
____ 提供了方向,明确告知响应号召类型的学生。
____ 在适当的时候,明确提出时间和活动限制在方向。
____ 充分培训观察员(S)/射手(一个或多个),以确保他们在得分适当的行为公平。

测试项目质量学生评价 

用冰问卷项目 评估你的测试项目质量 

下面的一组冰的(教师和课程评价体系)问卷项目可用于评估测试项目的质量。项目都带有他们原来冰目录编号。我们鼓励你包括一个或多个的冰评估表上的项目,以收集您的物品写作质量的学生的意见。

IV。该中心在教学创新和学习(赌钱现金网)提供援助

The information in the booklet is intended for self-instruction. However, CITL staff members will consult with faculty who wish to analyze and improve their test item writing. The staff can also consult with faculty about other instructional problems. 该 Measurement and Evaluation Division of CITL also publishes a semi-annual newsletter called Measurement and Evaluation Q & A which discusses various classroom testing and measurement issues. Instructors wishing to receive the newsletter 要么 to acquire 赌钱现金网 assistance can call 该 Measurement 和 Evaluation Division at 333-3490. 

102 - 您如何评价教师的试题? 116 - 没有考试挑战你做原始思维?
优秀的 较差的 是的,非常具有挑战性 不,不是挑战

103 - 没试题如何体现课程的内容和重点? 118 - 是有“猫腻”或测试陈腐的问题吗?
以及相关 po要么lyrelated 其中很多 几乎没有

114 - 考试反映在阅读作业要点。 122 - 多么困难是考试?
非常同意 强烈反对 太难了 太容易了

117 - 考试主要testedtrivia。 123 - 我发现我可以只是临时抱佛脚成绩相当不错的考试。
非常同意 强烈反对 非常同意 强烈反对

119 - 被考题明确的措辞? 121 - 如何为考试的规定时间长度。
是的,veryclear 没有,很不清楚 太长 太短

115 - 被教练的testquestions发人深省? 109 - 是有错误的返回考试,论文,报告解释或个人的意见?
当然是 definitelyno 几乎总是 几乎从不

125 - 进行考试时充分讨论的回报?
是的,充分的 不,还不够

诉进一步阅读参考


玉宝,罗伯特·湖 衡量教育成果。黄俊英,新泽西:普伦蒂斯霍尔,1965年,章4-6。 
玉宝,罗伯特·湖 教育测量的要领。黄俊英,新泽西:普伦蒂斯霍尔,1972年,章5-8。 
gronlund,N。即 测量和评价在教学。纽约:麦克米伦出版公司,1976年,章6-9。 
Mehrens, W. 一种。 & Lehmann, I. J. 测量和评估在教育和心理学. New Y要么k: Holt, Rinehart & Winston, InC。, 1973, Chapters 7-10. 
尼尔森,C。 H。 测量和评价课堂。纽约:麦克米伦出版公司,1970年,章5-8。测量和评估师,247军械库大楼。为科学指导特别有用。 
佩恩,大卫。 学习的评估。莱克星顿,马萨诸塞州:哥伦比亚特区健康与合作,1974年,第4-7章。 
Scannell, D. P. & Tracy, d。 湾 测试和测量在课堂上。纽约:霍顿米夫林合作,1975年,章4-6。 
桑代克河。湖(编辑)。 教育测量 (第2版)。华盛顿,教育,1971年,第9章(性能测试)和第10章(作文考试)特区:美国委员会。