
「このテスト、本当に公平なのかな?」「AさんとBさん、点数は同じだけど、本当に同じ実力なんだろうか?」
オンラインテストが当たり前になった今、テストの点数だけでは測れない「真の実力」をどう評価するかが、教育現場や企業の人材育成において大きな課題となっています。もしかしたら、テストの点数や偏差値だけを見て、一喜一憂していませんか?
今回はテスト評価の悩みを解決する鍵となるIRT(項目反応理論:Item Response Theory)について、どこよりも分かりやすく、そして深く解説していきます。
統計学の知識がなくても大丈夫。この記事を読めば、IRTがなぜ必要なのか、どんなメリットがあるのか、そしてあなたのテスト作りをどう変革できるのか、その全貌が掴めるはずです。
- IRT(項目反応理論)とは?~点数だけじゃない、真の実力を見抜く「新しいものさし」~
- なぜIRTが必要なのか?テスト評価の進化に見る、従来の限界
- IRTの心臓部!「項目特性曲線」で問題の良し悪しを見抜く
- IRTでテストはどう変わる?主なメリットと活用法
- IRTが実際に使われている試験の例
- IRT導入のポイントと注意点
- まとめ:IRTでテスト評価を次のステージへ
- WisdomBase(ウィズダムベース)でもIRTの実践が可能
IRT(項目反応理論)とは?~点数だけじゃない、真の実力を見抜く「新しいものさし」~
IRT(項目反応理論、または項目応答理論とも呼ばれます)とは、一言でいうと「テストの各問題(項目)への解答(応答)パターンから、受験者一人ひとりの能力と、問題ごとの特性(難しさや識別力)を同時に測定する理論」です。
Wikipediaには少し難しく書かれていますが、もっとシンプルに捉えましょう。
評価項目群への応答に基づいて、被験者の特性(認識能力、物理的能力、技術、知識、態度、人格特徴等)や、評価項目の難易度・識別力を測定するための試験理論である。
Wikipedia: 項目応答理論
従来のテストが「合計点」という一面的な情報しか与えてくれなかったのに対し、IRTはもっと多角的に、そして精密に受験者の能力を測ろうとします。
ポイントは「項目(問題)への応答を見る」こと。
単に正解か不正解かだけでなく、「どのくらいの能力を持った人が、どの問題に正解し、どの問題で間違えたか」というパターンを分析することで、問題ごとの特性: その問題が「どのくらいの能力レベルの人にとって難しいのか(難易度)」、「実力のある人とない人を見分けるのに適しているか(識別力)」受験者の能力: テスト全体の点数に左右されない、その人の「潜在的な能力(特性値)」この2つを、お互いを参照しながら高い精度で推定できるのです。
まるで、一人ひとりにオーダーメイドの「能力ものさし」を当てがうようなイメージですね。
なぜIRTが必要なのか?テスト評価の進化に見る、従来の限界
IRTの重要性を理解するために、テスト評価がどのように進化してきたかを見てみましょう。
評価1.0:テストの「スコア」だけを見る時代
あなたのお子さんが100点のテストを持って帰ってきたら、手放しで褒めますか?
もしそのテストの問題が「自分の名前をひらがなで書きましょう」の1問だけだったらどうでしょう。
100点で当たり前ですよね。
逆に0点のテストの場合は?
もし問題が「ゴールドバッハ予想を証明しなさい」(2024年現在、数学上の未解決問題!)だったら、0点でも叱るわけにはいきません。
このように、テストのスコアだけを見ても、問題の難易度が分からなければ、その点数が本当に高いのか低いのか、適切に評価することはできません。これが評価1.0の限界です。
評価2.0:「偏差値」による相対評価の登場
次に登場したのが「偏差値」です。全体の平均点や点数のばらつきを考慮して、集団の中でどのくらいの位置にいるかを示す指標ですね。
全員が100点を取るような簡単なテストなら、100点を取っても偏差値は50。逆に全員が0点の超難問テストでも、0点なら偏差値50。スコアだけを見るよりは、集団内での相対的な位置が分かり、評価方法として進化したと言えます(評価2.0)。
評価3.0:IRTによる「質の高い評価」へ
では、偏差値を使えば完璧でしょうか?
ここに落とし穴があります。
例えば、全20問・100点満点の世界史のテストに、こんな問題が紛れ込んでいたらどうでしょう。
この問題だけ間違えて70点だったAさんと、運良く(?)正解して100点だったBさん。偏差値で見れば当然Bさんの方が高くなります。
しかし、世界史の能力という観点から見て、本当にBさんの方が高いと言い切れるでしょうか?(ちなみに正解は「原武 裕美」さんだそうです)
ここに、IRT(評価3.0)が登場する意味があります。IRTは、このような「テストの目的(測りたい能力)と関係のない問題」や「難易度が不適切な問題」が、全体の評価に与える影響を最小限に抑えようとします。
どうやって? それが「項目特性曲線(ICC: Item Characteristic Curve)」という考え方です。
IRTの心臓部!「項目特性曲線」で問題の良し悪しを見抜く
IRTでは、問題1問1問について、その「質」を評価するために「項目特性曲線」というグラフを描きます。難しそうに聞こえますが、考え方はシンプルです。
- 横軸: 受験者の能力(例えば世界史の能力。これはIRTによって推定されます)
- 縦軸: その問題に正解する確率

このグラフを、たくさんの受験者の解答データをもとに作成します。
例えば、「問5. フランス革命が起きたのは何年か?」という世界史の問題があったとしましょう。
- 世界史の能力が低い受験者は、この問題に正解できる確率は低いでしょう(グラフの左下の方)。
- 世界史の能力が平均的な受験者は、そこそこの確率で正解できるかもしれません(グラフの真ん中あたり)。
- 世界史の能力が非常に高い受験者は、ほぼ確実に正解できるでしょう(グラフの右上の方)。
これらの点を結んでいくと、多くの場合、下図のような滑らかなS字カーブを描きます。

このS字カーブの「形」が、問題の質を教えてくれます。
- S字カーブの傾き:
- カーブの真ん中あたりの傾きが急であればあるほど、ある能力値を境に正答できるかどうかが明確に分かれることを意味します。つまり、能力を正確に見分ける力(識別力)が高い良問である可能性が高いです。
- S字カーブの位置:
- S字カーブ全体がグラフの右側にあれば、高い能力がないと正解できない難しい問題。左側にあれば、比較的低い能力でも正解できる易しい問題だと判断できます。
では、先ほどの「郷ひろみの本名」問題の項目特性曲線はどうなるでしょうか?
世界史の能力が高い人も低い人も、正答率はあまり変わらないはずです(世界史の知識とは直接関係ないので)。そのため、グラフはS字にならず、横軸(世界史の能力)に関わらず、ほぼ一定の低い正答率を示す、水平に近い線になるでしょう。

このように、IRTと項目特性曲線を使えば、
- その問題が、測りたい能力をきちんと測れているか?(識別力)
- その問題の難易度は適切か?
といったことを客観的に評価し、「郷ひろみ問題」のような不適切な問題(悪問)を見つけ出し、修正したり、配点を調整したりすることが可能になるのです。
IRTでテストはどう変わる?主なメリットと活用法
IRTをテスト作成や評価に導入することで、具体的にどのようなメリットがあるのでしょうか?代表的なものを2つ紹介します。
1. 等化(Equating):異なるテストの結果を公平に比較
IRTの最大のメリットの一つが「等化」です。これは、実施時期や問題セットが異なるテストであっても、共通の尺度(ものさし)でスコアを比較できるようにする技術です。
例えば、
- 資格試験の第1回と第2回で、問題の難易度が違った場合
- Aさんが受けたテストとBさんが受けたテストの問題が一部異なっていた場合
- 採点者によって甘い・辛いがある場合(面接や小論文など)
従来の方法では、単純な点数比較は不公平でした。しかし、IRTを使えば、各テストや問題の特性(難易度など)を考慮して、受験者の能力値を共通の尺度上で算出できます。
これにより、「今回のテストは難しかったから、70点でも前回テストの80点に相当する」といった調整が可能になり、公平な比較や継続的な能力測定が実現します。
2. CAT(コンピュータ適応型テスト):一人ひとりに最適なテストを提供
IRTを活用することで、CAT(Computer Adaptive Testing / Computerized Adaptive Test)と呼ばれる、より効率的で精度の高いテスト形式が実現できます。
CATは、受験者の解答状況(正解・不正解)に応じて、次に出題する問題の難易度をリアルタイムで変えていくテストです。
- 正解が続けば、より難しい問題を出題
- 不正解が続けば、より易しい問題を出題
これにより、
- 受験者の能力レベルに合った問題が重点的に出題されるため、短い時間で効率的に能力を測定できる。
- 簡単すぎる問題や難しすぎる問題を解く必要がなくなり、受験者の負担やストレスを軽減できる。
- 一人ひとりに出題される問題が異なるため、カンニングなどの不正行為を防止しやすい。
まさに、IRTの「個々の能力と問題特性を分離して捉える」という考え方を最大限に活かしたテスト形式と言えるでしょう。
参考:CATについて詳しくはこちらの記事もどうぞ
IRTが実際に使われている試験の例
IRTは欧米では古くから活用され、学校現場にも浸透しています。日本でも最近になってIRTを活用したテストが増えています。
みなさんも「TOEICのテストは全問正解しなくても満点の990点になることがあるらしい」とか「まぐれで正解しても大したスコアにならないらしい」ということを耳にしたことがあるかもしれません。
実際TOEICのスコアリングにも、IRTは活用されています。
その他にもTOEFL、GTEC、 CASECと言った英語の民間試験や、ITパスポート試験、また、弊社システムでもオンライン講座を取り扱いしている、日本語能力試験(JLPT: Japanese Language Proficiency Test)、BJTビジネス日本語能力テスト、などにもIRTが活用されています。
IRTの考え方を活用し、みなさまの優れた問題作成の一助になれば幸いです。
IRT導入のポイントと注意点
項目応答理論(IRT)は、従来の合計点方式のテストが抱える問題点を解決し、受検者の能力をより正確に、かつ異なるテスト間で比較可能な形で測定できる可能性を持つテスト理論です。
しかし、そのメリットを最大限に活かし、適切に運用するためには、いくつかの重要なポイントと注意点があります。
1.大規模かつ質の高いデータの確保
IRTでは、項目の難易度や識別力といった特性値や、受検者の能力値を統計的に精度高く推定することが不可欠です。そのため、最低でも千人規模の受検者データが必要とされ、継続的に大規模なデータを収集できる体制が成功の鍵となります。
2.項目プールの構築と維持管理
幅広い能力層の受検者を正確に測定するためには、易しい問題から難しい問題まで、多様な特性を持つ項目を大量にストックしておく「項目プール」の構築が必要です。テストの規模によっては数千から数万項目が必要となる場合もあります。また、項目は繰り返し使うことで特性値が変化する可能性があるため、定期的に新しい項目を追加し、古い項目を更新・管理していく体制が求められます。
3.厳格な項目非開示の徹底
IRTで用いる項目の特性値は、問題が事前に公開されると変化してしまいます(例:対策問題集への掲載など)。そのため、一度使用した項目や、これから使用する予定の項目(予備調査項目)は、原則として非開示にする必要があります。特に重要な試験ほど漏洩リスクが高まるため、厳格な情報管理体制が不可欠です。
4.テスト設計における「局所独立性」の担保
IRTでは、「ある項目に正答するかどうかは、他の項目の正誤に影響されない」という仮定(局所独立性の仮定)を前提としています。したがって、前の問題の答えを使って次の問題を解く形式や、一つの題材に複数の設問がぶら下がる大問形式などは、この仮定を損なう可能性があるため、設計段階で注意が必要です。各設問が独立して解答できるような構成が求められます。
注意点
- IRTが適さないケースの理解
- 受験者数が少ないテスト、臨時で作成された小テスト、特定の集団のみを対象としたテストなど、モデルの仮定を満たしにくい場合や、従来のテスト理論で十分な情報が得られる場合には、必ずしもIRTを適用する必要はありません。導入の目的とテストの特性をよく吟味する必要があります。
- 導入・運用コスト
- 大規模データの収集、多数の項目作成とプール管理、専門的な知識を持つ人材の確保など、IRTの導入と継続的な運用には相応のリソースとコストがかかる点を理解しておく必要があります。
- 問題形式の制約
- IRTでは、計算の容易さやデータ収集・採点の効率性から、多くの場合、正答か誤答かの2値で評定できる択一式の多肢選択問題が中心となります。部分点を考慮する多値反応モデルも存在しますが、計算が複雑になり、さらに多くのデータが必要となるため、導入のハードルが上がります。
IRTを導入する際は、これらのポイントと注意点を十分に理解し、自組織のテストの目的や状況に合わせて慎重に検討を進めることが成功への道筋となります。
まとめ:IRTでテスト評価を次のステージへ
今回は、テスト評価の新しい常識となりつつあるIRT(項目反応理論)について、その基本的な考え方からメリット、活用事例、導入のポイントまでを解説しました。
IRTのポイント
- 単なる点数ではなく、問題への解答パターンから能力と問題特性を測定する。
- 項目特性曲線により、問題の質(難易度、識別力)を客観的に評価できる。
- 等化により、異なるテストの結果を公平に比較できる。
- CATにより、効率的で精度の高い個別最適化テストが実現できる。
- 導入には十分なデータ、項目プール、専門知識などが必要。
- オンラインテストが普及し、多様な能力を正確に測る必要性が高まる中で、IRTはますます重要な役割を担っていくでしょう。テストの点数や偏差値だけでは見えなかった、一人ひとりの真の力や可能性を明らかにするために、IRTの考え方を理解し、活用していくことが求められています。
あなたのテスト作りや人材評価に、IRTという新しい視点を取り入れてみませんか?
WisdomBase(ウィズダムベース)でもIRTの実践が可能
WisdomBaseなら、LMS・オンラインテストのデータを統合管理。
WisdomBaseのCBT機能では、各受験者1問1問の解答データ出力が可能。解答データを元に項目特性曲線の作成など、専門理論を具現化するデータ活用が自由自在に。ITスタートアップ企業ならではの柔軟性・スピード感で、ご希望に応じたカスタマイズ対応も可能です。
決済機能も充実、自社運用もかんたんにできるのも特徴です。お問い合わせはこちらからお気軽に😀

