louribot’s blog

学習成果の出る企業内教育(教育全体)についての考察を語ります

「テスト作成」の現状マトメ・・・

今日は、これまで学んだり、情報収集したりした「テスト」についての「作成」する際のマトメとして羅列してみます。

 

年のせいか(?)どうも忘れてしまうことがあるので、、、、


「テスト」というものを専門として研究している人や研究室もあるようで、なかなか奥が深いのです。


「学習目標」の達成評価をするということは「教育・学習」の基本の”キ”ですから(”ホ”も入ってますね)、、、、

 

「教育・学習」の基本となる「メーガーの3つの質問」の①と②です。(メーガーの3つの質問)① Where am I going? (どこへ行くのか?)② How do I know when I get there? (たどりついたかどうかをどうやって知るのか?)③ How do I get there? (どうやってそこへ行くのか?)

テストの重要性

では、かなり長いですが記していきます。


今回は、下記の4つについて、説明(羅列?)していきます。


(1)「テスト」の目的

(2)「テスト」の種類

(3) 問題の分類

(4) 内容(問題作成の注意点等)

 

まずは、(1)「テスト」の目的です。


”なぜ 「テスト」 をするのか?” というと、


・学習者の能力・学習度合いを知るため。 

・その結果をもとに成績をつける。 

・また、単に成績をつけるだけでなく、その結果から、教授者が自分の指導・教育を評価したり、振り返りを行う。

・テストをすることで、学習者に学習をさせる。


といったことですね?


>学習目標達成の評価 

    >インストラクションの成功・失敗の評価(学習者と教授者の評価)
    >合格、不合格

>レベル分け 

    >全体の知識レベルを知る
    >優秀者、もしくは下位者の選別

>学習 

    >テスト効果として、学習する。 

    >企業内教育の場合、会社の費用を使ってのテストなのだから、どんなテストであっても、「復習」、「再確認」、「気づき」等、受験者の学習になる必要がある。
            (受験者のためになる内容。 現場で使える可能性がある内容)

 

続いて、(2)「テスト」の種類です。


「テスト」の種類としては下記の2つが一般的です。


・「集団準拠評価(相対評価)」のテスト

・「目標基準準拠評価(絶対評価)」のテスト


通常のインストラクション評価を行うには、「目標基準準拠評価(絶対評価)」のテストであるべきですが、入試や診断テストでレベル分けを行う場合には「集団準拠評価(相対評価)」のテストを使用することもあります。


「集団準拠評価(相対評価)」のテストとは、


「差をつけるため」のテスト評価(順位付け、平均、偏差値)

  >学校の中間テスト、期末テスト
  >入試(全体の何パーセントが合格、、、)

・インストラクション前の「レベル分け」のテスト評価

  >「診断テスト」・・知識レベルを把握する為のテスト


ということです。


「目標基準準拠評価(絶対評価)」のテストは、


・学習内容習得・目標達成(到達点をクリアすれば合格)

  >公文式、カーンアカデミー 
   ( 完全習得をしないと次の学習にいけない)
  >国家資格試験(運転免許、、、)・・合格、不合格


次に、(3) 問題の分類です


知的領域の「テスト」では、通常、ガニェの学習成果分類の2つが使われています。


・「言語情報」の問題・・・記憶

・「知的技能」の問題・・・応用


世の中に溢れる「テスト」の7割以上は「言語情報」すなわち単なる「記憶」を問う問題ではないでしょうか(数学とかは割合が低いですが)?

 

特に、企業内教育垂れ流しの e-Learning で行われるテストは9割以上そうですね?

 

勿論、「記憶」が無ければそれを使った「応用」ができないわけですから仕方がないことですが、それだけ、、、というのが悲しい現実です。


「記憶」の問題は作成が簡単なので、何も考えない教授者”これだけ” になってしまいます。

しかし、これまでにも散々記しているように、「応用」できないと実際の現場では役に立たない場合が多いため、「企業内教育」でそれだけやっている現状は、、、、非常にプアで、、、、情けない、、と感じてしまいます。


「知的技能」の問題・・・応用の問題 とは、

 

 ・ルールや概念、状況によって、知識(記憶)を活用できる能力のこと
 ・ある約束事を未知の例に応用する能力
 ・暗記(記憶)だけではない

 

ということです。


知的技能の「下位分類」には、

・弁別(discrimination)
・具体的概念(concrete concept)
・定義された概念(defined concept)
・ルールと原理(rule and principle)
・問題解決 (problem-solving)

があり、

「目標行動を表す言葉」には、

・区別する
・確認する
・分類する
・例証する
・生成する

があります。


・企業内教育においては、可能なら「知的技能(応用)」の問題で評価を分ける。

・「考えて正解を導く」知識・能力・判断(現場感覚)


と、説明しても、、、、実際にそういうテストを作れる人は少ないですね?

日本教育の敗北(学校教育の弊害)」、、、の実情はココです(?)


知的技能(応用)の評価問題の例としては、


 <説明や練習で使っていない例を用いて>

・かけ算の計算をするときに、覚えた九九を使って2ケタのかけ算を解く

・運転するときに、交通標識を見て車の進め方を判断する

・歴史の勉強をするときに、同じ年号で起こった出来事の因果関係を説明する
・上司に対する報告の型を使って、報告内容をまとめる

・同僚との雑談で、覚えた4種類の質問を適切なタイミングで相手に振る

・会議で発言するときの型を使って、発言内容をまとめる


みたいな感じです。

勿論、忙しくて(?)大変な先生様、教育担当者様ですから、すべて「知的技能」の問題を出せということは言いません。

せめて1問、、、1問でもいいので、、「知的技能(応用)」の問題を、と思います。


そして、問題の出し方としては、


1つの事項についての複数の問題の場合、

(ベーシックな出題方法)
 
 (問1)言語情報(記憶)
 (問2)言語情報(記憶)
 (問3)言語情報(記憶)   
 (問4)言語情報(記憶)  
 (問5)知的技能(応用)


(まず考えさせる出題方法)

 (問1)知的技能(応用)
 (問2)言語情報(記憶)
 (問3)言語情報(記憶)   
 (問4)言語情報(記憶)  
 (問5)言語情報(記憶)


があり、どちらでもいいですが、私的には後者がいいように思います。

最初に「考えさせる」ということが重要だと思っているからです。

 

次に、(4) 内容(問題作成の注意点等)です。


これは、様々な考え方、研究はがあるので、箇条書きで羅列しておきます。

本当はもっと簡略なチェックリストでもできればいいのですが、、、


・ わずかな違いの数値問題を出さない。
  (わずかな数値の差が大きな意味を持つものであれば可)

・ なるべく間違った数値の問題は出さない。
  (テストを解くことにより間違った知識がインプットされる場合がある)

・ ひっかけ問題教えていない高度な内容の問題は出さない。
  (無理にでも差をつけたい場合は可)

・ 紛らわしい表現の問題(言語情報)はなるべく避ける。
  (説明文の解読により、弁別する場合等の「知的技能」の問題であれば可)

・    明らかな誤答枝や遊びの選択枝余計な選択枝を入れない。

・  「あてはまるものをすべて選べ」 という設問は避ける。
  (心理的負荷が高いため。差をつける場合は可)

・   文章の書き方だけで解ける問題は出さない。
  (内容を知らなくても常識や文章の流れで解けるような問題)

・   直感で答えるような問題は避ける。
  (文章の出だし、文末の表現だけで判断できるような問題を出さない)

・ 全員が正解する、逆に全員が不正解になる問題は出さない。
  (テストの弁別力を低下させる。相対評価の場合、差がつかない)

・ 100点も0点も少人数になるように、難易度を調整する。
  (相対評価テストの場合)

・ 問いたいことは何か,解くための能力は何かを明確にする。

・ 重要な事柄を問う。
  (些末なことや、一般的過ぎる問いを出さない)

・ 正解が問題作成者の価値観に左右される問題は出さない。
  (出題者の思い込み)

・ 特定の個人や集団に有利または不利にならないこと。

・ 前の問題に対する解答が,後の問題の正誤に影響しないこと。
  (1問間違えば、次の数問も間違えるような問題は出さない)

・ 空所補充問題について,文意が分からなくなるほどの空所を設けない。

・ 否定表現をできるだけ使わない。
   (もし使う場合は,太字やアンダーラインで強調する)

・ 一部の受験者にしか分からないような暗黙の前提を用いない。

・ いずれの選択枝も、もっともらしくする。

・ 高得点者と低得点者をよく区別できるような,識別力の高い選択枝を用いる。

・ 正答枝と誤答枝が明確に区別できるようにする。

・ 不必要に選択枝を増やさない

・ 五十音順,数量の大きさ順など,何らかの法則に従って選択枝を並べる。
・ 正答枝の位置をランダムにばらつかせる。

・ 「知っているはずだ」ではなく、「知っていなくてはいけない」問題を出す。

・ 「上記のいずれでもない」「上記すべてあてはまる」などの選択枝を用いない。(心理的負荷が高いため。差をつける場合は可)

・ 「絶対に」「常に」「決して」「完全に」など,強意語を用いない。

・ 選択枝は互いに独立であること。
   (内容に重なりがない)
・ 一方が正答枝であれば他方は誤答枝であると分かるような,両立しない選択枝を入れない。

 

以上が、「テスト作成」についてのまとめ、、です(ほんとか?)

 

また、折角いろいろと調べたので、参考内容として下記のような考えもあるということを記しておきます。


「良いテストの3つの構成要素」として、

 

1 . 妥当性(validity)

2 . 信頼性(reliability)

3 . 有用性(usefulness)


があります。


1 . 妥当性(validity)


(構成概念妥当性)

測定しようとする構成概念が、実際にどれくらい適切に測定されているか。

たとえば、「英語の能力」を測るテストはいくつも存在するが、それらのテストがはたして英語の能力を的確に測定できているのかを見る。

また、テストが現実の言語使用場面をどれだけ反映しているかという真正性(authenticity)も重要。


(内容的妥当性)

テストの内容が自分の調べたいことを含んでいるか。

会話の能力を調べるテストで、内容が作文だったらそれは内容妥当性が低いと言える。

また、テスト内容が出題範囲内から出題されているか(逸脱していないか)を領域適切性、テストの出題範囲の中から偏りなく出題されているかを領域代表性という。


(基準関連妥当性)

外部基準(関連のあるほかのテスト)と相関するか。

(関連する)別のテストの結果と比べるということ。

たとえば、自分のテストの得点と、ほかの関連するテスト(外部基準)の得点との相関が高ければ、基準連関妥当性が高いと言える。


(表面的妥当性)

テストの見た目が整っている、見やすい、テストらしく見えるか。

 

2 . 信頼性(reliability)


・そのテストが信頼できるか。

・主にテストの安定性と一貫性を見る。

・信頼性を測る方法として、「再テスト法」と「平行テスト法」がある。

 

(再テスト法(test-retest method))

  >同じ人に期間を空けて同じテストを2回させる。

  >1回目と2回目のテスト結果を比較する。


(平行テスト法(parallel test method))

  >同じ人に2つのテストを行い、2つのテストの一致度を見る。

  >ただし、2つのテストは設問や難易度、質、量は同じものを用いる。表面的には違うが、内容的には同じテスト。

 


3 . 有用性(usefulness)


テストの有用性には、「効率性」「実用性」の2つがある。


(効率性)

    テストが時間や手続きの面で実施しやすいかどうか。


(実用性)

    テストが費用、労力、設備などの面で経済的負担が大きくないか、
    実施がスムーズに行えるか。


以上です。


まぁ、勉強になるし、考えさせられるなぁ、、、と思うのは私くらいでしょうね?

誰もが「テスト」を嫌いますが、真正な評価をしないと何もわかりませんよね?