« 幾何大王からの挑戦状#4 | トップページ | Googleのリアルタイム検索 »

Twitterの日本語検索をあきらめる。そしてもっとハッシュタグを使おう。

 薄々気づいている人も多いと思うが、ツイッターの日本語検索はほとんど使い物にならない。あるキーワードで検索して、そのキーワードが含まれるツイートがそれで全部だと思ったら大間違いである。キーワードにもよるが、実際はほとんどのツイートが検索から漏れている。(嘘だと思ったら、自分の最近のツイートに含まれるいくつかのキーワードで検索してみるといい。)
 これは、本当はネットコミュニケーションにおいて重大な問題となっているべき話。

 なぜ、英語の検索は機能して、日本語検索は機能しないか、その理由は単純だ。英語をはじめとする多くの表音文字主体の言語では、単語毎に分かち書きにされる。そのため、検索の際には半角スペースや各種区切り記号で分割されたものを「単語」と認識して、マッチングすればいいだけなのだ。もちろん、多少の語尾変化などには対応しているかもしれないが、あくまでも分かち書きが大前提なのだ。
 実際の検索機能の実装としては、おそらく最初にツイートされた時点で、分割された単語のデータベースとの対応付けがなされるのだと思われる。既存のデータベースにない語が出現したら、新たに単語として追加されるだけだ。(その際、あまりにも長すぎる語は無視するとか、出現頻度の著しく低いものは一定時間経つと削除されるとかのオペレーションは入るかもしれない。)ともかく、文を書いた人が最初から単語の切れ目を明示しているので、どれを単語とみなすかということは問題にならない。

 それに対し、日本語の場合はどうなるか。英語と同じような戦略では、句読点やその他記号で分割されたもの全体が1単語と認識されてしまう。読点をあまり使わない人なら、1文=1単語だ。こんなので検索として機能するわけがない。実際、ものによっては、その単語で検索すると、その単語だけの短いツイートや、その単語の前後が半角記号で区切られたものだけがヒットするのはそのせいだ。

 ただ、さすがにそれで「検索できます」と言い張るのには無理があるので、いくつかの手法で「単語らしきもの」を切り出すことはしているようである。
 一つは、最もアナログな方法で、あらかじめ登録されてる一般的な単語とマッチしたものを単語として切り出すというもの。ここで重要なのは、あくまでも「単語毎に分割する」という発想なので、たとえば「日本」も「日本語」も単語としては認識されるようだが、「日本語」でヒットするツイートは「日本」ではヒットしない。また、「森林火災」という語を含むものは「森林」でも「火災」でもヒットするが、「森林火災」ではヒットせず、「展覧会」は「展覧」しか登録されていないようで「展覧会」ではヒットしない。もっと困るのは、動詞などは馬鹿正直に品詞ごとに分解してしまっていること。「食べる」では検索できるが「食べない」では検索できない。「食べ」+「ない」なので、「食べ」でしかヒットしないのだ。
 あと、文を漢字・カタカナ・ひらがなに分解し、漢字だけのかたまりとカタカナだけのかたまりはそれぞれ単語として認識することがあるようだ。たとえば「メプリーズ」で検索すると「写メプリーズ」なんてのがヒットする。(漢字の方は定かではない。「頑張」で「頑張れ」にヒットしたからそういうのもあるのかと思ったが、単に「頑張」が単語として登録されていただけかもしれない。)

 いずれにせよ、いかにこのような「単語分割」の工夫を進化させたとしても、ツイート時に単語に分割してそれをキーに検索するという発想をしている以上、期待されるレベルの日本語検索機能が実現することはありえない。そして、このように検索がまともに機能しないと思われる言語、すなわち、単語単位で分かち書きにしない言語は、私の知る限り(その範囲は狭いが)日本語と中国語だけだ。(韓国語は、表音文字のハングルのみを使用するため、分かち書きにすることが多いようである。) だから、ラテン文字を使用している人々が、ツイッターの有用性として「ある事柄について今人々が何を考えているかをすぐ知ることができる」というようなことを述べても、日本語や中国語で生活している者が真に受けてはならない。今の日本のツイッターでは、既存のハッシュタグによる検索を除き、検索で旬な情報を得ることなんてほとんどできず、逆にどんな気の利いたことを必要なキーワードも含めてツイートしても、それが検索エンジンが単語として切り出しにくいキーワードであったならば、メジャーなハッシュタグをつけない限りフォロワー以外の目に触れることはまずないのだ。

 実際のところ「事前に抽出された単語でしか検索できず、日本語ではその単語の抽出が困難である」という事情は、ツイッターに限った話ではなく、一般のWeb検索エンジンでも同様である。もちろん、google等の持つ日本語などに対応するための蓄積されたノウハウをツイッター側は持っていないとかいう問題もあるが、通常のWebが更新されるぐらいのタイムレンジであれば、検索のされかたを見ながら新しい単語やその組合せのはやりすたりを定期的なデータベースの更新時に反映させれば、検索の確度も上がっていき、それなりの実用性もある。しかし、ツイッターの場合は、さらなる即時性と手軽さが売りなので、旬のつぶやきがすぐに検索できないと意味がない。そのため、(まだ気づいていない人も多いが)「日本語って実はちゃんと検索されなくね?」ということがようやく表面化してきたのである。

 だからといって、「日本もいずれ英語を公用語にすればいい」とか「GHQがやろうとしたようにローマ字化すればいい」とか「韓国みたいにひらがなだけにすればいい」とかいう乱暴な議論には持って行きたくない。私は「漢字かな混じり文」の国に生まれて本当によかったと思っている者であり、その素晴らしい文化を放棄することは潔しとしない。斜め読みでも大体の意味が容易に把握できるその機能性、そしてその豊かな表現力。「漢字かな混じり文」を駆使することは今の日本人のアイデンティティと言ってもいい。ただ、その誇るべき文化こそが、情報化社会の中で日本のガラパゴス化が免れ得ない大きな原因となっていることも事実として強く認識する必要がある。少なくとも、原理的にガラパゴス化していて、「ガラパゴス内」での使用においても適切に機能していないという事実を認識することなく、「ツイッター最高」とか言うような脳天気な人にはなりたくないのだ。日本語を放棄せず、そのためのガラパゴス化はある程度は止むなしとしながら、なおかつ世界に取り残されないようにするには、世界で使われているサービスを日本国内で使用するために必要な技術については常に日本側から内外に情報を発信し働きかけ続けながら、それとは別に「ガラパゴス外」でのコミュニケーション能力も向上させ、両面をメリハリよく使い分けることが必要なのだろう。

 ツイッターに関して言えば、日本語検索が根本的に改善される見込みは当分ないので、ユーザ発信のローカルな使用法として、ハッシュタグをもっと積極的に使えばいいのではと思っている。要は、ツイートの中のキーとなる単語や話題の分野をなんでもハッシュタグ化してしまうのを慣例にするのだ。その場合、ハッシュタグ自体は世界中で使われるので、たとえば必ず頭に「#j_」を付けるようにする。その後に続く単語は、一般に日本人でもわかる英単語があればそれでもいいし、ローマ字でもいい。だれもが思いつくような略称でもいい。読んだ本の話なら#j_book、数学の話なら#j_math、バナナがおいしかった話なら#j_banana・・・と、なんでもとりあえずタグをつけてみる。そして、ある事柄についてのみんなのつぶやきを見たい人は、使われるであろうハッシュタグで検索すれば、少なくともそのタグを使ったツイートは確実に検索できる。
 この試みが機能するためには、ある程度の人数の賛同者がある程度継続して実行する必要がある。なので、柄にもなく一般に呼びかけるような表題にしてみた。が、ガツガツ「拡散希望」というわけでもなく、じわじわとしばらく一人で実践してみようか。いや、拡散してもらってもいいのだが。

(追記:賛同するならこちらをリツイート)
(追追記:やっぱり一人実践はむなしいので挫折・苦笑)

 ちなみに、ハッシュタグの#の前は、必ず半角スペースで区切らなければタグとして機能しないので要注意。(ハッシュタグの後にも文や文字が続く場合には、ハッシュタグの直後も半角スペースで区切る必要あり。)

|

« 幾何大王からの挑戦状#4 | トップページ | Googleのリアルタイム検索 »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/133198/49124422

この記事へのトラックバック一覧です: Twitterの日本語検索をあきらめる。そしてもっとハッシュタグを使おう。:

« 幾何大王からの挑戦状#4 | トップページ | Googleのリアルタイム検索 »