美しい英語でキャリアビジョンを実現する!

Artistic English

概要

VERSANTスピーキングテストの概要 ②AI評価による限界

投稿日:2019年6月17日 更新日:

第2言語習得理論のモデルを知る

さて、VERSANTは「文章構文、語彙、流暢さ、発音」の4つの評価項目の合算として得点を出す訳ですが、果たしてそれらはスピーキング能力を測るテストの評価項目として、そもそも妥当であるのか(過不足がないのか)ということを考えてみたいと思います。
そのためには、評価項目としての「あるべき姿」を参照しなければなりません。そこで、言語学の一分野である「第2言語習得理論」のモデルが、英会話の一連のプロセスをどのように分解し、モデル化しているのかを概観することとしましょう。

リスニング ①音声知覚 相手の発話を英語の音声として知覚できる
リスニング ②意味理解 ①で知覚した英語の音声の意味を、単語の意味や文法を元に理解できる。
③概念化 ①②で聴いた内容をもとに、何をどのように言うべきか頭の中で考える。
スピーキング ④文章化 ③で考えた内容を適切な単語・文法・構文を用い、頭の中で文章化する。
スピーキング ⑤発音 ④で考えた内容を実際に声に出して発音する。

ちなみに現在多くの書籍、スクールがこのモデルを参考にしているので、上記に関してより深く知りたいという方は、表内のキーワードを手掛かりに検索してみて下さい。

VERSANTの評価項目との対応

VERSANTには「概念化」に相当する評価項目がない

次にVERSANTの4つの評価項目は、上述の表のどの要素に対応するのか、各評価要素の定義をもとに、私が対応づけを試みてみました。

文章構文 ①音声知覚、②意味理解、④文章化に対応
語彙 ②意味理解、④文章化に対応
流暢さ ④文章化、⑤発音に対応
発音 ⑤発音に対応

もう私の結論がどこに向かっているのかお分りいただけているかと思いますが、VERSANTあるいはその背後にあるAI技術、自然言語処理の技術では、人間が「何をどのように言うか(第2言語習得理論の③概念化のプロセス)」を評価できないのです。

VERSANTは、「正解」がない事項は評価ができない

実際、VERSANTのSection1(音読), 2(復唱), 3(質問), 4(語句並び替え)は明確な正解がある問題となっています。Section5の評価プロセスについては、また別の記事で細かく検討しますが、まず日本語版の説明では「要約」と記されていますが、英語では「Story Retelling」であるという事実を、今は心に留めておいて下さい。そして、英語版の説明を読むと、「自分の言葉で」語ることを奨励しているため、唯一無二の正解がある訳ではありませんが、元々のストーリーという大枠の正解がやはり存在します。

Section6に至っては自動評価の対象外

唯一、自由に自身の見解を述べるSection6には、正解というものは存在しません。しかし、英語版のサイトからリンクが貼られているValidation Reportによれば、Section6はなんと自動評価の対象外ということです。つまり、終了数分後に出力されるレポート上の得点には、一切影響を与えないということです。
そのようなものが、なぜ、テストに組み込まれているのかと言えば、例えば、海外では採用試験等でVERSANTが用いられることが多くあるようで、採用企業の担当者が評価材料として使用することもあるようです。つまり、「概念化」の部分は、現在の技術水準では自動評価を行えないということなのです。

AIにできないこと

VERSANTというテストの登場により、ついに英語教育者はAI技術、自然言語処理技術についても、一定の理解を持たねば対応できない時代に来てしまったと、私は考えています。個人的には、私は若干のITのバックグラウンドがあるため、興味深くこの時代を受け止めています。
AI技術の限界を知り、シンギュラリティという幻想を打ち砕くためには、新井紀子さんの書かれたベストセラー「AI vs 教科書が読めない子どもたち」を一読されることをお勧め致しますが、VERSANT試験を理解する上で有用と思われる部分に関して、簡単に私なりの理解を以下に示しておきます。
著者がAIロボを東大に合格をさせるプロジェクトを推進する中で、センター試験を解かせてみたところ、世界史は情報検索技術により、また数学は論理的な自然言語処理の技術により、高得点を獲得できるようになったとのことでした。ところが、ロボットにとって国語と英語のセンター試験は難敵で、特に英語については「現在の自然言語処理にとって、困難な問題が集中的に詰め込まれている」とのことでした。AIの限界を象徴する文章が同著の中にありましたので、以下に引用致します。

AIは意味を理解しているわけではありません。AIは入力に応じて「計算」し、答を出力しているに過ぎません。(中略)AIには、意味を理解できる仕組みが入っているわけではなくて、あくまでも、「あたかも意味を理解しているようなふり」をしているのです。

AIは意味を理解できないため、VERSANTでは第2言語習得論のモデルの「概念化」のプロセスに相当する評価項目が存在しないのです。

英検1級の面接試験では概念化部分を評価する

英検1級の2次試験の評価項目は、「①SHORT SPEECH ②INTERACTION ③GRAMMAR AND VOCABULARY ④PRONUNCIATION」の4つとなっております。そのうち、①と②は「概念化(何をどのように言うべきか)」が評価されると、受験者は皆考えています。ですから、政治・経済・社会・環境等の様々なトピックに対して、自分の意見を英語で言えるように入念な準備を行い、想定問答等についても対策を講ずる訳です。
VERSANTでも導入企業の担当者が評価するためのPart6が存在しますが、私の経験則をベースにした「憶測」に基づけば、得点だけ使って「はい、終わり」というのが実態な気がしてなりません。重ねて言いますが、これは私の憶測に過ぎません。

逆にAIが得意であるはずの評価項目

自動評価には精緻な評価ができるはずである

VERSANTでは、AIが苦手な「概念化」に関わる評価項目が除かれている訳ですから、現在の4つの評価項目については、ヒューマンエラーの影響を受けないため、人の手によるよりも正確な評価が期待できそうな気がします。
英検の2次試験では、次の受験者がやってくる5〜10分以内で試験官があらかたの採点を行うので、全て細部までをチェックする訳には行かず、機械に比べては評価が粗くなることが予想されます。公的な試験なので面接官全員で共有するチェックリスト等はあると思われますが、後半の時間帯になると、疲労による評価のブレが生じたとしてもおかしくありません。

個人的な受験体験に基づけば、VERSANTは要因分解の精度に向上の余地あり

ところが、私の個人的なVERSANT受験体験談からすると、個々の評価項目の点数にも違和感を感じざるを得ません。たとえば、「文章構文」という評価項目の英語版での説明文を見ると、「Recall」という単語があり、別記事で述べた短期記憶の能力は同項目にて評価されていることが推察されます。
私はこのリテンションと呼ばれる短期記憶のスキルが苦手で、Section2の長めの文章を数問取りこぼしてしまいました。より具体的に言うと、完全に覚えきれなかったので、適当な言葉を当てはめて乗り越えました。
結果はというと、短期記憶も評価対象としているはずの文章構文(Sentence Mastery)のスコアは80点満点を獲得していました。一方で、英検では10点満点をいただいた発音が、VERSANTでは過少評価な気が致しました。受験者当人としては、長めの文章を覚えられず適当なことを言った自覚があるにも関わらず、文章構文が減点されず発音が減点されていたことから考えると、誤答の原因がどこにあるのか、VERSANTの評価モジュールが掴みきれていない可能性があります。つまり、私が言った適当なことは、「正しく理解し、記憶しているけれども、発音がおかしい」という判断を下したと考えざるを得ません。
しかし、AI技術の進歩は日々目覚ましいものなので、現在ある4つの評価項目については、日を追うごとに精度が高まっていくことと期待されます。

Versantスピーキングテスト対策全般については、下記のまとめページをご覧下さい。

Versantスピーキング対策 決定版

-概要

Copyright© Artistic English , 2023 All Rights Reserved Powered by AFFINGER5.