« 2010年6月 | トップページ | 2010年9月 »

Googleのリアルタイム検索

 前回書いた、ツイッターの日本語検索の問題を補完するものとして、Googleのリアルタイム検索の機能が公開されたようです。
 http://www.google.com/realtime?esrch=RealtimeLaunch::Experiment http://www.google.co.jp/realtime/(正式版に移行 2010/8/31追記)
 まだβ版のような感じですが、日本語の任意の文字列による検索が普通にできるので、twitter本体での検索とは比べものになりません。とりあえずはこれで、旬な話題に対するレスポンスを探したり、なにより共通の問題について興味を持つ人を探すことがようやく可能になったわけで、一歩前進。
 ただ、ツイートを非公開にしている人のツイートがヒットして表示されている(当時は公開していたのでしょうか?)とか、まだ解決すべき問題はあるようです。非公開ツイートの問題は結構根が深そうな気が...。どういう形でツイートデータをTwitter社からGoogle社に提供しているのかが気になります。

 これに関する日経の記事
>> 倉岡氏によれば、リアルタイム検索は日本で多く使われている機能だという。「米国と比較しても、リアルタイム検索の利用率は日本の方が高い。ケータイを使っていろいろとつぶやいたり、検索したりする日本の文化が反映されているのではないか」

えーと、「日本の文化が反映されている」とかではなく、twitter本体の日本語検索が全く機能していないからというだけの理由だと思いますが...。

| | コメント (0) | トラックバック (0)

Twitterの日本語検索をあきらめる。そしてもっとハッシュタグを使おう。

 薄々気づいている人も多いと思うが、ツイッターの日本語検索はほとんど使い物にならない。あるキーワードで検索して、そのキーワードが含まれるツイートがそれで全部だと思ったら大間違いである。キーワードにもよるが、実際はほとんどのツイートが検索から漏れている。(嘘だと思ったら、自分の最近のツイートに含まれるいくつかのキーワードで検索してみるといい。)
 これは、本当はネットコミュニケーションにおいて重大な問題となっているべき話。

 なぜ、英語の検索は機能して、日本語検索は機能しないか、その理由は単純だ。英語をはじめとする多くの表音文字主体の言語では、単語毎に分かち書きにされる。そのため、検索の際には半角スペースや各種区切り記号で分割されたものを「単語」と認識して、マッチングすればいいだけなのだ。もちろん、多少の語尾変化などには対応しているかもしれないが、あくまでも分かち書きが大前提なのだ。
 実際の検索機能の実装としては、おそらく最初にツイートされた時点で、分割された単語のデータベースとの対応付けがなされるのだと思われる。既存のデータベースにない語が出現したら、新たに単語として追加されるだけだ。(その際、あまりにも長すぎる語は無視するとか、出現頻度の著しく低いものは一定時間経つと削除されるとかのオペレーションは入るかもしれない。)ともかく、文を書いた人が最初から単語の切れ目を明示しているので、どれを単語とみなすかということは問題にならない。

 それに対し、日本語の場合はどうなるか。英語と同じような戦略では、句読点やその他記号で分割されたもの全体が1単語と認識されてしまう。読点をあまり使わない人なら、1文=1単語だ。こんなので検索として機能するわけがない。実際、ものによっては、その単語で検索すると、その単語だけの短いツイートや、その単語の前後が半角記号で区切られたものだけがヒットするのはそのせいだ。

 ただ、さすがにそれで「検索できます」と言い張るのには無理があるので、いくつかの手法で「単語らしきもの」を切り出すことはしているようである。
 一つは、最もアナログな方法で、あらかじめ登録されてる一般的な単語とマッチしたものを単語として切り出すというもの。ここで重要なのは、あくまでも「単語毎に分割する」という発想なので、たとえば「日本」も「日本語」も単語としては認識されるようだが、「日本語」でヒットするツイートは「日本」ではヒットしない。また、「森林火災」という語を含むものは「森林」でも「火災」でもヒットするが、「森林火災」ではヒットせず、「展覧会」は「展覧」しか登録されていないようで「展覧会」ではヒットしない。もっと困るのは、動詞などは馬鹿正直に品詞ごとに分解してしまっていること。「食べる」では検索できるが「食べない」では検索できない。「食べ」+「ない」なので、「食べ」でしかヒットしないのだ。
 あと、文を漢字・カタカナ・ひらがなに分解し、漢字だけのかたまりとカタカナだけのかたまりはそれぞれ単語として認識することがあるようだ。たとえば「メプリーズ」で検索すると「写メプリーズ」なんてのがヒットする。(漢字の方は定かではない。「頑張」で「頑張れ」にヒットしたからそういうのもあるのかと思ったが、単に「頑張」が単語として登録されていただけかもしれない。)

 いずれにせよ、いかにこのような「単語分割」の工夫を進化させたとしても、ツイート時に単語に分割してそれをキーに検索するという発想をしている以上、期待されるレベルの日本語検索機能が実現することはありえない。そして、このように検索がまともに機能しないと思われる言語、すなわち、単語単位で分かち書きにしない言語は、私の知る限り(その範囲は狭いが)日本語と中国語だけだ。(韓国語は、表音文字のハングルのみを使用するため、分かち書きにすることが多いようである。) だから、ラテン文字を使用している人々が、ツイッターの有用性として「ある事柄について今人々が何を考えているかをすぐ知ることができる」というようなことを述べても、日本語や中国語で生活している者が真に受けてはならない。今の日本のツイッターでは、既存のハッシュタグによる検索を除き、検索で旬な情報を得ることなんてほとんどできず、逆にどんな気の利いたことを必要なキーワードも含めてツイートしても、それが検索エンジンが単語として切り出しにくいキーワードであったならば、メジャーなハッシュタグをつけない限りフォロワー以外の目に触れることはまずないのだ。

 実際のところ「事前に抽出された単語でしか検索できず、日本語ではその単語の抽出が困難である」という事情は、ツイッターに限った話ではなく、一般のWeb検索エンジンでも同様である。もちろん、google等の持つ日本語などに対応するための蓄積されたノウハウをツイッター側は持っていないとかいう問題もあるが、通常のWebが更新されるぐらいのタイムレンジであれば、検索のされかたを見ながら新しい単語やその組合せのはやりすたりを定期的なデータベースの更新時に反映させれば、検索の確度も上がっていき、それなりの実用性もある。しかし、ツイッターの場合は、さらなる即時性と手軽さが売りなので、旬のつぶやきがすぐに検索できないと意味がない。そのため、(まだ気づいていない人も多いが)「日本語って実はちゃんと検索されなくね?」ということがようやく表面化してきたのである。

 だからといって、「日本もいずれ英語を公用語にすればいい」とか「GHQがやろうとしたようにローマ字化すればいい」とか「韓国みたいにひらがなだけにすればいい」とかいう乱暴な議論には持って行きたくない。私は「漢字かな混じり文」の国に生まれて本当によかったと思っている者であり、その素晴らしい文化を放棄することは潔しとしない。斜め読みでも大体の意味が容易に把握できるその機能性、そしてその豊かな表現力。「漢字かな混じり文」を駆使することは今の日本人のアイデンティティと言ってもいい。ただ、その誇るべき文化こそが、情報化社会の中で日本のガラパゴス化が免れ得ない大きな原因となっていることも事実として強く認識する必要がある。少なくとも、原理的にガラパゴス化していて、「ガラパゴス内」での使用においても適切に機能していないという事実を認識することなく、「ツイッター最高」とか言うような脳天気な人にはなりたくないのだ。日本語を放棄せず、そのためのガラパゴス化はある程度は止むなしとしながら、なおかつ世界に取り残されないようにするには、世界で使われているサービスを日本国内で使用するために必要な技術については常に日本側から内外に情報を発信し働きかけ続けながら、それとは別に「ガラパゴス外」でのコミュニケーション能力も向上させ、両面をメリハリよく使い分けることが必要なのだろう。

 ツイッターに関して言えば、日本語検索が根本的に改善される見込みは当分ないので、ユーザ発信のローカルな使用法として、ハッシュタグをもっと積極的に使えばいいのではと思っている。要は、ツイートの中のキーとなる単語や話題の分野をなんでもハッシュタグ化してしまうのを慣例にするのだ。その場合、ハッシュタグ自体は世界中で使われるので、たとえば必ず頭に「#j_」を付けるようにする。その後に続く単語は、一般に日本人でもわかる英単語があればそれでもいいし、ローマ字でもいい。だれもが思いつくような略称でもいい。読んだ本の話なら#j_book、数学の話なら#j_math、バナナがおいしかった話なら#j_banana・・・と、なんでもとりあえずタグをつけてみる。そして、ある事柄についてのみんなのつぶやきを見たい人は、使われるであろうハッシュタグで検索すれば、少なくともそのタグを使ったツイートは確実に検索できる。
 この試みが機能するためには、ある程度の人数の賛同者がある程度継続して実行する必要がある。なので、柄にもなく一般に呼びかけるような表題にしてみた。が、ガツガツ「拡散希望」というわけでもなく、じわじわとしばらく一人で実践してみようか。いや、拡散してもらってもいいのだが。

(追記:賛同するならこちらをリツイート)
(追追記:やっぱり一人実践はむなしいので挫折・苦笑)

 ちなみに、ハッシュタグの#の前は、必ず半角スペースで区切らなければタグとして機能しないので要注意。(ハッシュタグの後にも文や文字が続く場合には、ハッシュタグの直後も半角スペースで区切る必要あり。)

| | コメント (0) | トラックバック (0)

幾何大王からの挑戦状#4

8月号の問題は、今までの中では一番簡単です。おそらく答えはすぐ予測できると思いますが、それをどう筋道立てて証明するかがポイントとなります。解答募集の締切にはまだ十分間に合いますので、皆さん奮ってご参加下さい。

Angle04_q 「AD//BCの台形ABCDにおいて,AB=AC,BD=BC,∠DBC=∠ACDのとき,∠ABDを求め,その角度となることを初等幾何で証明してください。」


解答締切は8/12(木)、送付先は「理系への数学」8月号で確認して下さい。

| | コメント (3) | トラックバック (0)

7月総括

 気楽にツイートしているぶん、ブログの方のハードルが上がっている気がする。とりあえず、7月あたりの近況。

・W杯は日本終戦後もそこそこ見た。が、4年間待ったにしては慌ただしい中のチラ見。まあ、遠藤選手の活躍を見届けるという主たる目的は果たせたのでよしとしよう。

・7月中旬までは6月からずれ込んでいた膨大な図版作成の仕事(内職?)で死ぬ思いをする。生活のための仕事の見直しが急務なのだが、仕事に追われて仕事の作戦を練るヒマがない悪循環。

・一息ついたところで、懸案だったジム通いをボチボチ再開。体力の低下とオッサン体型から時計を巻き戻せるか?(とはいえ、また締切に対して時間的余裕がマイナスモードに入り、帰省前にもう1度行けるか微妙...。)

・血圧の薬を飲み続けているが、不規則な生活がひどくなるにつれ、改善どころか悪化の一途。生活サイクルを正常化するといっても、そもそも四半世紀以上前に東京に出てきてからまともなサイクルで生活したことなんて(サラリーマン時代も含め)一度もない気がする。が、それでもなんとかしないと。全ての悪循環はつながっている。

・老眼鏡を作る。人生初メガネ。今の携帯にしてから初めて画面がピクセル単位までクリアに見えた。読書などでは役に立ちそうだが、期待していたパソコン作業では、今のところかけたままではデメリットの方が大きそうなのが残念。完全なブラインドタッチではないので、手元が間接視野に入っていないと、非常に作業効率が落ちるのだ。必要に応じて頻繁に着脱しないといけないようで、とても面倒。

・今年見た2本目の映画はジブリの「借りぐらしのアリエッティ」。ポニョの時はさすがに劇場に足を運ぶ気はしなかったが、今回のは悪くない。そういえば「トイ・ストーリー3」がやたら評判がいいようなので、見たい気がするのだが、前作までを見ていないとどうなのだろう。帰省時に姪たちを連れて観に行くか。

 今月は10日〜20日がお盆で実家。今年はいろいろあって実家滞在時間が(それこそ状況以来最大規模に)長いのだが、帰省中に会う友人というのはいないので、人と会えるオフがほとんど確保できないのが辛い。音楽活動復帰のタイミングも逃し続けている。心が折れそう。

| | コメント (0) | トラックバック (0)

« 2010年6月 | トップページ | 2010年9月 »