今回の記事の発端は、自然言語処理における日本語の表記ゆれについて考察したこの文書。
「日本語は漢字、ひらがな、カタカナを併用している都合上、英語のようにアルファベットだけで表記される言葉よりも表記の多様性が多い」
なるほど例にあるように、「りんご」一つとっても「りんご」「リンゴ」「林檎」の3種類の表記があります。表記の違いでいちいちつまづかれては、信頼できる自然言語処理システムなど望めません。
そこで、Google翻訳が表記ゆれにどれだけ耐性があるかをチェックしてみました。
今回のお題
今回のフォーカスは基本的な人称代名詞
「わたし」「おれ」「きみ」「われ」「あなた」
の5つです。
これらを含めたいくつかの文章を集め、漢字、ひらがな、カタカナ表記のそれぞれの場合についてGoogle翻訳で英訳し、訳文を調べてみました。
それぞれどんな傾向が見られたでしょうか、以下から解説していきます。
わたし
まずは自分を指して言う一般的な「わたし」から。結論から言うと「わたし」「私」「ワタシ」の3種類で英訳文を比較したところ、訳文の大きな揺れは見られませんでした。
ということは表記ゆれへの耐性が高いということ。「わたし」という単語自体を誤訳する例も見られなかったので、その確率はごく低いとみていいでしょう。
おれ
「おれ」「オレ」「俺」の3種類でチェックしたところ、「わたし」同様、表記ゆれによる大幅な意味の違いはあまり見られませんでした。
俺が今日いったような考えはすべての階級の人間が多少ずつは持ってるんだ。
The ideas I got like today are somewhat held by people of all classes.
おれが今日いったような考えはすべての階級の人間が多少ずつは持ってるんだ。
The ideas I said today are somewhat held by all class men.
オレが今日いったような考えはすべての階級の人間が多少ずつは持ってるんだ。
People of all classes have somewhat different ideas that I said today.
ただ、「おれ」が含まれるような文章はくだけた調子の文章が多いため、そもそも解釈が難しい場合があります。
上の例では「オレ」表記の場合、原文にはない「different(違う)」という単語が付け足されているのがわかります。
文章の解釈自体が微妙なラインにある時は、意味が大きく変わりうる程度に影響を及ぼしうると考えてもいいのかもしれません。
きみ
「きみ」、「君」、「キミ」の3通りの表記を試しましたが、これについても訳語の大きな変化はありませんでした。
話し言葉調の文章であってもあまり変わらなかったところを見ると、「おれ」よりは表記ゆれ耐性が高いのかも、という印象です。
われ
「われ」、「我」、「ワレ」の3通りの表記でチェックしたところ、表記によって英訳文は比較的大きくばらつきました。
特にカタカナ表記の「ワレ」表記の場合に著しい訳文の変化が見られます。
かれらは文明的に、われらの世界から完全に絶縁されるにいたった。
They were civilized and completely insulated from our world.
かれらは文明的に、我らの世界から完全に絶縁されるにいたった。
They became completely insulated civilically from our world.
かれらは文明的に、ワレらの世界から完全に絶縁されるにいたった。
They came to be totally insulated from the world of creatures civilically.
この例を見ると、「ワレ」が「creatures(生き物)」と訳されており、原文から大きく外れています。
「われ」の表記ゆれは他の人称に比べて訳語への影響が激しいようですね。
ワレらに認めたい心さえあれば完全は至るところにある。
Everything is in everywhere if there is a heart that you want to recognize.
余談として、あるかもな、と少しだけ予想していた誤訳をひとつ。カタカナ表記の「ワレ」が「You」と英訳されています。
この用法は標準語では間違いでも、大阪弁だと考えると十分通る使い方。方言のと標準語での用法のずれで訳語が狂うような場合はあるのかどうかと気になっていたところだったので、これに行き当たったときは「やっぱりあるんだ」とニヤニヤしてしまいました。
あなた
比較したのは「あなた」「貴方」「貴男」「貴女」の4種類。
「貴男」と「貴女」とで対称的な漢字を使っているため、トンチンカンな訳が出るものかと思ったけどそこまででもありませんでした。
表記ゆれの耐性は、「わたし」以上「おれ」以下という印象で、調べた中で人称自体の単語チョイスをミスしたのはひとつだけ。
私たちからも連絡を取りますが、どうぞあなたからも声をかけて下さい。
We will get in touch with you, please do speak to me also from you.
私たちからも連絡を取りますが、どうぞ貴方からも声をかけて下さい。
We will get in touch with you, please do speak to me too.
私たちからも連絡を取りますが、どうぞ貴男からも声をかけて下さい。
We will get in touch with you, please also speak to you from Takao.
私たちからも連絡を取りますが、どうぞ貴女からも声をかけて下さい。
We will get in touch with you, please do speak to me too.
ただし
あなた、いくら冗談でもそんな乱暴なことをいうものじゃありませんよ。
No matter how annoying you are, it does not mean such a rough thing.
貴方、いくら冗談でもそんな乱暴なことをいうものじゃありませんよ。
No matter how much you are a joke, it does not mean such rough things.
貴男、いくら冗談でもそんな乱暴なことをいうものじゃありませんよ。
No matter how tired you are, it does not mean such a rough thing.
貴女、いくら冗談でもそんな乱暴なことをいうものじゃありませんよ。
No matter how loud you are, it does not mean such a rough thing.
この例では「あなた」の表記が変わることによって「冗談」という単語の訳語が変わっていることに注目してください。
上からそれぞれ「あなたがいくら迷惑でも」、「あなたがいくら冗談めかしても」、「あなたがいくら疲れていても」、「あなたがいくら疲れていても」という意味の英単語にそれぞれ訳されてしまっています。
人称の表記を変えることで、その後にある形容詞が変わるのはおかしな話に聞こえます。しかし文章の全体的なパターンをもとに文意を捉えるニューラル機械翻訳にしてみればそうでもありません。ニューラル機械翻訳は必ずしも文章を個別の単語の集まりとしてだけ見ているわけではないのです。
この特徴は翻って、出力結果を制御しにくいという欠点にもつながってきます。
人間が入力する際にはどうしても表記ゆれは起こるもの。少しの表記ゆれで結果が変わるのであれば「常に正確な訳文を作る」というのは望むべくもありません。
とはいえ、人間の方が少し合わせてやるだけでもGoogle翻訳はかなりこちらの意を汲んでくれます。
人間を超えた、いや超えない、結局どうなんだとなって、最後にはまだまだ人間には及ばない、で話が済んでしまいがちな機械翻訳。ですが人間がほんの少し歩み寄るだけで、それなりに使い勝手のいいツールになるものだと信じています。