12月 4

便利なようですね。細かい単語とかも変換できるそうで。
と、この投稿の内容は多分に私の妄想を含みます。ご了承ください。

とあるブログの問題提起が面白かったので載せておきます。
ちょっと長いけど、GoogleIMEを使ってる人は一度読んでおくのもいいかもしれない。

辞書を作るのに、Web の文字データを解析したっていうことなんだけど、ご存じの通り、かな漢字変換の辞書は、かなの読みと、それに対応する漢字表現のセットが必要。Web の文字は変換後の表現だから、その字に対応する読みデータをどこからか収集しないといけないはず。
どこから集めたのか考えてみたんですが、たぶん(たぶん、ですよ。あくまで私の憶測・邪推ね)、Google サジェストを提供する中で、ユーザーがかな漢字変換をしている途中の読みデータと、かな漢字変換を確定した後の漢字データを集めてきたのではないかと思います。
読みデータを蓄積しているという確証はないけれど、少なくとも Google サジェストを使っている間は変換前の読みデータを収集して使っているのは確実。確定前の読み入力中の段階で、どんどん先読みして候補を出してくれる、っていうのが Google サジェストの発表時からの売りですからね(当時の記事参照)。

ユーザーが「かな」をどういう文脈の時にどういう漢字に変換するかという膨大な統計データを使うということはすばらしいと思うのだけど、そこでユーザーが入力したかな文字列と変換後の漢字文字列のセットは、実はユーザーが使っているかな漢字変換機能の辞書が吐き出したものなんですね。つまり、ユーザーを介して、間接的に他社のかな漢字変換の辞書の内容の一部を「ぶっこ抜いて」いるわけですわ。

これって、どうなんだろう?
http://www.higuchi.com/item/534

要はたとえば、

かんせんざこ と 打ったときに
観戦雑魚 と変換する辞書というのが必要なのです。

僕の場合はMS-IMEなのだけど。ATOKも結構長いこと使ってた。
さて、Googleはどうやってこのシステムを作ったんだろう?と。

ものすごく要約すると、「Googleはサジェストでの変換実績をもとにこのIMEを作っているのなら、それはMS-IMEやATOKの辞書を流用していることにならないのかな?だとしたらなんかちょっとずるいよね?」ということ。

数ヶ月前にMicrosoft日本法人の元社長のブログにはこうあった。

某MS社員に、「MS IME最近どうなっているのよ?」と先週聞いた答えが…「IME開発の主体が、中国にシフトしまっていて我々も手を出せない……個人的にはATOKに切り替えようと思っている」と言う現役開発系社員の発言に絶句!!! 
http://furukawablog.spaces.live.com/Blog/cns!156823E649BD3714!9079.entry

既にMS-IMEには希望が持てない。

ぶっちゃけ僕はMicrosoftが大嫌いだし、MS-IMEはどうでもいい。
でも、例えばこのツールが広まることで、ATOKはどうなるんだろう。
正確な日本語変換を売りにして、実際ユーザも多かった。

「無料でできるならATOKいらないね」という流れに、仮になったとする。
もちろん全員とは絶対ならないし、一部だけでもね。
どうしても、ATOKの質は落ちるよね。
ATOKまでの大手といわなくても、小規模なプロジェクトは容易に淘汰される。

長期的に見れば、インターネットやコンピュータ業界は無料のベクトルに逆らえないと思う。
であれば、その中でいかに生き残っていくか。

さて、仮にATOKの質が落ちるとどうなるか。
もちろんユーザが離れてGoogleIMEはまたユーザを増やす。
ユーザとしてはそれでもいいかもしれないのだけど、
GoogleIMEの方式は学習式。つまり、固定の辞書を持たない。
どういうことかというと、日本語変換がネットスラングによって置き換えられる。

現在のインターネットがGoogleによって操られているように、
日本語がGoogleによって操作される日も、そう遠くないかもしれない。

まぁ、それ妄想だよねとか、
それが市場原理だよね、と言ってしまえばそれまでなのだけど。


leave a reply