Loading...

難読漢字を読ませるとわかる、Google翻訳のある内幕

英語についてちょくちょく聞かれる不満には、スペルと読み方が一致しない場合が多すぎる、というものがあります。

でもこれ、漢字についても同じ事が言えるもの。通常の読み方とはかすりもしない読み方に変わる事例は数多くあり、Wikipediaには日本の難読地名が地域別にまとめられているほど

このような難読漢字は知らなければほぼ読めないもの、となると、知識をデータベース化しておけるコンピューターの方が有利なのでは

とくれば早速Google翻訳の出番。この記事ではここを参考に日本の難読地名をピックアップし、Google翻訳で英訳させ、アルファベットに正確に転記できるかどうかをチェックしてみました。

特牛

最初の地名は「特牛(こっとい)」。知らなければこう読もうなどと夢にも思わないまさに難読。

訳語が漢字直訳の「Special Beef」というのはご愛敬。左下のローマ字転記を見ても「toku ushi」となっているあたり、Google翻訳にも読めないほどの難読漢字と思われます。

ところでGoogle翻訳には、入力文や訳文を音声で読み上げる機能があります。PCブラウザ版であればちょうど入力フォームの左下、スピーカーのマークをクリックすると読み上げてくれます。

驚くべきは(記事では伝えられませんが)こちらの読み上げ機能のほう。なんと読み上げの音声だけは「こっとい」と正しく発音してくれるのです。

これに気づいた時の驚きったらありません。「ほかの難読漢字はどうなのか?」という疑問からこの記事を書こうと思い立ったほどです。

石動

次に扱うのは「石動(いするぎ)」。

ローマ字転写、音声とも「いするぎ」と、漢字の読みを正しく認識できています

ただ英訳文は「Ishikari」となっています。ローマ字表記をそのまま使えばいいのに、どうもおかしな間違い方。

ちなみに「今石動」は「Imaishi」となっているあたり、英訳文へのアルファベット転記も安定していないようす。

ローマ字転記は正しくできるのに、その転記をそのまま使えるはずの英訳文で間違えるのは奇妙な挙動です。どうもローマ字転記と英訳の処理は、情報を共有せずに行っているみたいです。

及位

次のエントリーは「及位(のぞき)」 参照ページのランキングでは上位に位置する強者です。

アルファベット転写と音声読み上げは読み方通りの「のぞき」となっています。

ところが肝心の訳の方はサッパリ。

上の例文だと「及位」の語が抜け落ちて、英訳文ではまるで名もない村ででもあるかのような文章になっています。

「rank」と訳されたこのような例も。「位」の漢字を強引に解釈したものでしょうか。

鬼首

次は温泉地として名高い鬼首(おにこうべ)。観光地として紹介されている場所なので、もしかするとデータが十分にあって正確に読めるかも?

あ、すごい、読めてる。

初めて正確にアルファベット転記できた地名に行き着きました。

加えてローマ字表記、音声読み上げもきちんと「おにこうべ」になっています。

ただ

ひらがな表記の訳を「Okonbu」と間違えるのはどういうことなのでしょう。

夏油

次に来るのは岩手の温泉街「夏油(げとう)」。

夏油高原にはスキー場もある、見所の多いスポット。積雪量は日本トップクラスで、5メートルを超えるほどなんだとか。

Google翻訳の訳語は「Summer Oil」と直訳調

入力フィールド下のローマ字転記を見ても、「なつゆ」と誤読しているのがわかります。

ただ、何をどうしてか音声だけはちゃんと「げとう」と正確な読み方

特牛の場合といい、漢字が一番正確に読めるのは発音機能なのでは?という仮説が成り立ちそうな勢いです。

和寒

最後に来るのは北海道の「和寒(わっさむ)」。

難読地名であるだけでなく、日本国内でも特に冷え込む場所として有名。真冬では日中でも気温が-15度にまで下がることもあるそうです。

画像英訳は「ワカサ」と読み違えるも、左側のローマ字転記は「wassamu」という正確な表記。音声も「わっさむ」と発声できていました。

他の文章もいくつか訳させましたが、ローマ字転記と発声は正確に「わっさむ」と認識できるようす。一方で英訳文のアルファベット転記は精度が低いという印象です。

まとめ

今回の英訳結果を表にまとめてみました。

ローマ字転記音声英訳
特牛××
石動×
及位×
鬼首
夏油××
和寒×

ここから垣間見えるのは

  • Google翻訳は文章のローマ字転記、読み上げ機能、そして英訳のそれぞれを異なるルートで処理しているらしいこと
  • 難読漢字を読むことだけについていえば、読み上げ機能の処理ルートが一番正確であるらしいこと

です。

シンプルなインターフェースの裏では、翻訳機構以外にもさまざまなルートでのデータ処理を行っているようですね。

個人的にはこれらの処理ルートの情報を統合できれば、固有名詞の転記をより正確にできるような気がします。素人考えながらも。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA