10月アクラス研修の報告レポート「学習者の作文評価を考える―コンピュータによる作文評価の可能性」(講師:李在鎬さん、レポーター:高橋信之さん)

10月のアクラス研修「学習者の作文評価を考えるーコンピュータによる作文評価の可能性ー」の報告レポートです。

作成してくださったのは高橋信之さんです。どうぞご覧ください。

   ★資料(公開用)

                 ・

 ♪   ♪   ♪

  タイトル:

 「学習者の作文評価を考えるーコンピュータによる作文評価の可能性ー」        

講演者: 李在鎬(りじぇほ)先生

レポート:高橋信之(ISIランゲージスクール非常勤/フリーランス日本語教師)

1. はじめに

IMG_1972今回のアクラス研修会のテーマは、「学習者の作文評価を考える-コンピュータによる作文評価の可能性-」です。作文評価といえば、日本語教師の仕事の中でも、かなりの労力と神経を必要とする作業です。「時間がかかりすぎる添削作業をどのように効率化するか」「誤字や文法ミスなどの減点法評価と、作文の内容の客観的な評価をどう両立させるか」などと、日頃頭を悩ませている方も多いかと思います。今回の演題は、その作文評価にコンピュータを使うというものです。

 日本語教育の現場にいる人間としては、何か現実離れした内容にも思えますが、最近のAI技術の進化を考えれば、決して夢物語ではないような気もします。参加者からは「アナログで行なっていた作文評価を進歩させたい」「コンピュータによる作文評価という演題に、興味を引かれた」という声が多く聞かれました。

                                                       ・


2.
講演者紹介

李在鎬先生(早稲田大学 教授)略歴

2005年~      独立行政法人 情報通信研究機構 自然言語処理、コーパスの研究

2009年~      国際交流基金 テスト、評価法を研究

2011年~      筑波大学留学生センター eラーニングシステム開発、日本語教育沿革拠点コーディネーター。日本語の授業も担当

2016年~現在 早稲田大学日本語教育研究科 プロの日本語教師を目指す修士、博士の指導。「社会に貢献する人材を作る」という早稲田大学のスローガンの下、コンピュータを使って日本語教育を社会的な文脈で考えることを目標にしている。

こうして見ると、サイエンスやコンピュータの世界から日本語教育まで、ダイナミックに活動されてきた方だということがわかります。李先生の今後の中期的な目標は、コンピュータに知性のようなものを持たせて、AIと日本語教育をつなげるツールとして利用していくこと。さらに長期的な目標は、理工系の研究者と共同研究ができるような日本語教育研究者を作ることだそうです。


3.
AI技術の現在

本の表紙ここで、現在AI技術がどこまで進化しているかを表す例として、NHKの番組で、AIによって合成された美空ひばりの話が紹介されました。これはNHKやレコード会社に残る音源・映像をAIがディープラーニング(深層学習)を行うことで、秋元康さんプロデュースの新曲「あれから」を歌う歌声や映像を再構築するというものです。映像はやや機械臭いところがあるものの、歌声のビブラートなどは本人に肉薄していると思います。興味のある方は下記URLでご参照ください。

https://www.youtube.com/watch?v=nOLuI7nPQWU

そのほか、AIが書いた本がある文学賞の一次選考に通った話、企業の決算情報を元に、AIがレポートを作成する話、アメリカで前科者の再犯率をAIが予測する話などの例が示されました。


4.
日本語教師はいらなくなる?

当然の疑問として、「このままAIが進化していけば、(人間の)日本語教師はいらなくなるのか?」という問いが出てきます。李先生のご意見では「いらなくなるかどうかはさておき、AIによって社会がかわるので、言語教育もかわる。これまでと同じやり方は難しくなる」とのことです。そのいい例として、すでに実用化されているグーグル翻訳や、ソフトバンクが販売する語学ロボットMusio Xが提示されました。

 Musio Xは、ユーザーの顔や声を認識し、ユーザーが英語で話す言葉(例えば“I’m back, Musio.”に対して、英語で(例えば”Welcome back.”)返してくれるというもの。特に子供の英語学習に有効だということで、すでにAmazonで10万円以下で購入できます。興味のある方は、下記URLをご参照ください。

https://www.youtube.com/watch?v=om9g5uB_xj4

 確かに、語学学校の限られた時間で行う会話練習と比べれば、非常に有効な語学学習ツールであることは否めません。


5.
言語研究用ICTツール紹介

ここで、コンピュータを使った言語研究用ICTツールがいくつか紹介されました。その中から、本題に関連するものを挙げておきます。

●jReadability(https://jreadability.net/sys/ja

日本語の教科書の文章を元にして、入力された日本語テキストを単語レベル(形態素)に分割し、「文の難易度」を判定するウェブアプリです。語彙の難易度や品詞の構成をグラフ表示する機能もあります。

●jWriter(https://jreadability.net/jwriter/)

入力されたテキストから推測される「作文力の到達レベル」を評価する、今回の研修の核となるウェブアプリです。語の多様性、漢語力、長文作成力、難解語といった要素ごとに解析してコーパスと比較し、初級〜上級の5段階で評価を行います。「短い文が多いです。複文を使ってみましょう」のようなアドバイスも表示されます。

どちらも、誰もが利用できるウェブアプリの形式なので、ぜひ、上記URLにアクセスして試してみることをお勧めします。


6.
【タスク1】 jReadabilityによる難易度解析

ここで、上記で紹介したjReadabilityによる難易度解析の実例として、3つの例文をjReadabilityに入力し、それぞれの文の難易度を解析する1

というタスクを行いました。まずは、研修会参加者の皆さんが、与えられた3つの例文に対して難しいと思われる順に順位をつけました。例文の雰囲気を理解していただくために、各文の冒頭部分を下記に示します。このレポートをお読みの皆さんも、難しいと思われる順番をぜひ考えてみてください。

研修会参加者による評価で一番多かったのは、難しい順に

文章②>文章①>文章③

という順番でした。

 次に、これら3つの文をjReadabilityにかけてみると、次のような結果になりました。

文章①=中級後半 文章②=上級前半 文章③

ご覧の通り、研修会参加者による評価と一致しています。

余談になりますが、これらの例文を日本語学習者に読ませたところ、漢字圏学習者の中には、文章②が一番易しく、文章③が一番難しいと答えた者がいたとのこと。漢語の影響は私たちが考える以上に大きいのかもしれません。


7.
【タスク2】 作文の到達度を評価する

いよいよ本題であるコンピュータによる作文到達度の評価です。今回は、ドイツ語話者の学習者が「住みやすい国の条件」というテーマで書いた3つの作文を使用し、jWriterを使って到達度を評価してみました。例題に使った3つの作文の内容は、下記URLで見ることができますので、是非ご参照ください。

https://jreadability.net/jwriter/sample

このURLの中で「中級の作文例」とされているものが作文①、「上級の作文例」とされているものが作文②、「初級の作文例」とされているものが作文③です。

ここでも、まずは研修会参加者が3つの文を読んで、よく書けていると思われる順番を決めました。その結果は、次の通りです。

研修会参加者による作文評価

 最もいい作文         作文②(56%)>作文①(44%)

2番目にいい作文      作文①(55%)>作文②(39%)>作文③(6%)

3番目にいい作文      作文③(94%)

 

次に、これら3つの文をjWriterにかけてみると、次のような結果になりました。2

作文②(上級レベル)>作文①(中級レベル)>作文③(初級レベル)

 

ここで注目したいことが2つあります。まず、今回の研修会参加者は、何らかの形で日本語教育に関係している専門家ばかりですが、そのような専門家の間でも、「最もいい作文」「2番目にいい作文」の評価が分かれていること。いかに作文の評価が難しいかがわかります。もう1つは、そのような専門家の中の多数派が下した評価と同じ結果をjWriterが導き出していることです。

 

 

8. jWriterは何を見ているのか

日本語教師が学生の作文を評価するときは、例えば文法ミスや誤字脱字を減点したり、文章の論旨が正当か否か、ユニークな発想をしているかをなどの要素を見たりしています。しかし、jWriterが評価する指標は全く異なり、次のような要素を見ています。

 

●文の長さ

●中級レベルの単語の使用頻度

●異なり形態素数(タイプ・トークン比)

●動詞の数

●総文字数

●和語と漢語の数

例えば、「文の長さ」という要素は、初級レベルは短く、上級レベルに行くほど長くなります。同じように「中級レベルの単語の使用頻度」は、初級レベルは少なく、上級レベルに行くほど多くなるという相関関係が見られます。また、「異なり形態素数(タイプ・トークン比)」とは、作文の中で重複せずに使われている語彙数(単語数)のことで、これも上級へ行くほど多くなるそうです。

このように、jWriterは人間とは全く異なる指標で評価しているわけで、私たちが予想するような文法解析や内容の評価は行なっていないのは、正直ショックではあります。しかし、人間の専門家の評価に近い結果を導き出していることは事実です。

 

 

9. jWriterが使用する計算モデル

それでは、jWriterは何を元に作文の良し悪しを判定しているのでしょうか。李先生のお話では、I-JAS(※)というコーパスを利用しているそうです。

 

I-JAS(International Corpus of Japanese as a Second Language)は、国立国語研究所が、12の異なる母語を持つ海外の日本語学習者、および国内の日本語学習者の発話データと作文データを横断的に収録したコーパス。

このコーパスの中に、「私たちの食生活:ファストフードと家庭料理」というエッセイのデータが560件入っています。そこから文の長さ、動詞の数、和語と漢語の比率などをコンピュータが学習し、「多変量解析」という統計分析の手法で、理想的な文の計算モデル(計算式)を導き出しています。コンピュータが作った計算モデルの中で、2つ(「モデル7」「モデル8」と呼ばれるモデル)がまあまあ使えるという結果が得られたそうです。参考までに、「モデル7」「モデル8」と呼ばれるモデルの式は、次の通りです。

 

モデル7

作文のレベル=1.592+平均語数*0.046+中級後半語*0.026+TTR*-0.416+動詞*0.014+中級前半語*0.015+総文字数*-0.004+和語*0.006

 

モデル8

作文のレベル=1.637+平均語数*0.045+中級後半語*0.021+TTR*-0.430+動詞*0.0115+中級前半語*0.011+総文字数*-0.004+和語*0.007*漢語*0.007

 

10.   計算モデルの妥当性

モデル7/8の妥当性を調べるために、実際に初級から上級レベルの学習者が書いた作文を、モデル7/8を使って評価してみたそうです。その結果は次の通りです。

 ★表7,8

(引用元:李先生のPowerPointファイル。原典は測定不可AとBにわかれていたが、単なる「測定不可」に統一した)

 例えば、モデル7では、103人の初級レベル学習者の作文のうち、88人を初級レベル、6人を中級レベルと評価しました。このように、初級レベルに関してはまあまあ当たっていますが、中上級に関しては精度が高いとは言えません。これに対してモデル8は、中級レベルと上級レベルについては精度が高いですが、初級レベルには使えない、ということがわかります。懇親会


11.    
今後の展開について

李先生は、現在、文章の論理性をコンピュータが判断するシステムや、日本語テストをコンピュータが自動生成するような研究をなさっています。学生が論文を提出するときに、先にコンピュータにかけて論理性をチェックするような使い方を想定しているそうです。


12.    
最後に

今回の研修に参加して、AIによる作文評価というものが、レポーターが想像していたものとは随分異なるものであること、しかしその評価の結果は、人間による評価にかなり近いものであることがわかりました。まさしく「AIによる作文評価の可能性」を感じることができたことは、大きな収穫です。李先生には改めてお礼を申し上げたいと思います。

なお、研修終了後に、参加者から「文法はめちゃめちゃでも、難しい漢字語彙を数多く使っていれば、jWriterは上級(=良い作文)と判断してしまうのでは?」と質問がありました。李先生の答えは「その場合は上級と判断されてしまいますね。語彙能力と文法能力には相関があることを前提としています」とのことです。

 

Comments are closed, but trackbacks and pingbacks are open.