はてなに入社しました (id:y_yanbeからid:yanbeへ)

id:y_yanbe改めid:yanbeです。今年の4月から株式会社はてなにエンジニアとして入社しました。私をオフラインで知っている方々には、去年の後半ぐらいから来年度の進路を聞かれるたびに曖昧な返答をして不義理を重ねてしまい申し訳なかったのですが、ようやくご報告できるタイミングとなりました。

自己紹介と短い経緯

idが変わったので、多くの方にとっては誰この人?という感じだと思います。なので、改めて自己紹介をしたいと思います。

id:yanbeはウェブ上ではこの辺で活動してきました。

はてな以外ではだいたいyanbeという表記で活動してきたので、いろんな方からid:yanbeと間違えて表記されることが以前からあって、そういう実情にはてなidの方を合わせた、というのがid変更の経緯です。

振り返ってみると、その時々の自分の興味に従って、便利なツールやライブラリやエディタの設定を作っては公開する、といった立場でのアウトプットが多かったように思います。

ウェブではあまり直接触れてきませんでしたが、私は大学院でソーシャルブックマークの研究、もう少し詳しく言うと、「ソーシャルブックマークのデータをウェブ上の他のサービス(たとえば検索エンジン)でうまく使うことで、それらのサービスを強化する」、といった趣旨の、分野としてはウェブマイニングの研究を行ってきました。この研究は学部の卒業研究から始まり、大学院の修士課程・博士課程と6年ほど取り組んできていて、その研究でこの春に博士(情報学)の学位を取得しました。

簡単には、個人的に上記のような活動をしてきて、縁あってはてなに入社、というのが経緯となります。

長い経緯

いい機会なので入社までの経緯を詳しく書こうと思います。どういう経緯で入社したか詳しく知りたい方はお読み下さい。ちなみに、大学院入学までの経緯っぽいものは以前私はこうやって進学先の研究室を決めました - yanbe.logで書きました。

また、修士課程から博士課程への進学を検討したときには、かなり迷って人力検索で人生相談をしたりしました。当時人生の岐路に立っていた自分の、言葉足らずな質問に対して真剣に回答してくださったid:b-wind さん、 id:dream76 さん、 id:hamster001さん、 id:taoo24さん、そしてid:hamastaさんには、この場を借りてお礼申し上げます。

GYM

研究で長いことソーシャルブックマークに触れてきてそれなりに楽しく研究もさせていただいていたのですが、同時に物足りなさも感じていました。

ウェブマイニングの研究にはデータがないとどうしようもない領域があります。ここで言うデータとは検索エンジンのインデックスデータや匿名化されたクエリログ、画像共有サイトのの画像データ、Q&Aサイトのログなどです。

よく言われるのはGYM(Google Yahoo! Microsoftの頭文字) といって、たとえばウェブ系の研究のトップカンファレンスであるWorld Wide Web Conference 2010で採択された論文を見ると、大学発の研究に見えてもこういった企業の研究者が共著者になっていたりします。これは、企業と研究室が契約を結んでデータを提供いただいているか、学生が研究インターンでそういった企業に行って研究して論文を書いた、という経緯で発表されている場合が多いです。大量のデータを扱う研究、というのはウェブ系でも年々増えてきていると感じます。

データが手に入らない独創的な研究が出来ないというのは甘え、という意見も一面正しいと個人的には思いますが、一方でデータ量がものをいう研究では上記のような研究グループに対して大きなハンデなのは確かです。上記のように企業と研究者(学生)が関係を構築出来ない場合、こういった研究の場でどうするかというと、サービス提供元で提供されているAPIを使ってデータの一部を取得するか、検索エンジンクローラーのようにウェブページをクローリングしてデータを集めるといったことぐらいしかできません。(しかも多くの場合限られた計算機資源で!)

個人的に困っていたこと

個人的なエピソードを紹介します。私が博士課程に進学したころにちょうどはてな本社が京都に移転してきたのですが、私はというとなぜか自転車で5分の距離で開発されているはてなブックマークのデータを研究室のPCでクローリングする、というシュールなことをしていました。

地理的な距離は何らかの外部要因で縮むことはあっても、組織対組織(大学や研究科や研究室)の距離はお互いが縮めようと努力しなければ縮まず、それはいち個人の努力ではどうしようもなかったりするものです。それこそ学生個人が採れる方法はアルバイトやインターンで潜り込む、という方法ぐらいしかないのですが、立場上それが出来ない・難しいという場合も意外とあります。

イムリーにも、こういった問題は先日の言語処理学会第17回年次大会(NLP2011)ワークショップ「自然言語処理における企業と大学と学生の関係」でも話し合われていたそうです。

そして(私も)立場を離れました

そんなある日いつものようにTwitterのタイムラインを見ていたら、はてなの2011年新卒募集のURLが流れてきたのを見つけて*1「そんなにソーシャルブックマークに興味があって研究してきたなら、研究者の立場を離れてはてなに応募し、直接的にはてなブックマークの開発に携わった方が効果的なのではないか」と気づき、はてなに応募しました。結果はこのエントリのとおりです。今は、自転車で5分の距離とは信じられないほど違う世界にいます。

私は今までずっとソーシャルブックマークに関する研究をしてきて、研究の過程で調査してきた先行研究や周辺分野の研究には、クールなアイデアや手法が数多くあると思っています*2

一方で、私の観測範囲では日本のウェブサービスでこういったものが応用されている例はまだまだ少ないです。もちろんすでに応用されている技術で素晴らしいものもありますが、まだ採用されている箇所は限定的です。

ここで、ウェブ系の技術者の方々は実は関連分野の論文を結構読んでいる、という話は結構聞くのですが、実際のウェブサービスの機能としてあまり見えてこないのはなぜなのでしょう。研究で提案されている良さそうな手法を実際のサービスに適用してみよう、という場面でうまく動かない場合があるのは、実は以下のような理由があるのではないでしょうか。

学術研究では本質的な新規のアイデアはごく僅かで、残りの既存研究への改良・拡張。ただし既存研究に対する改良・拡張は既存研究に問題が多いほどやりやすい。だからアイデア的にはおもしろいけど、課題が多い研究ほど、関連論文が増えて、それに伴って参照数が増えることになります。だから実用化が難しい研究ほど盛んに研究される事態になってしまう。また、実用になっていない研究は必要な技術項目もわかっていないので、研究方向性が発散しやすく、やっぱり関連論文が増えて、それに伴って参照数が増えます。逆に実用になった研究は、その開発・発展の場が、学際から産業界に移りますから、論文数は伸びなくなることが多い。論文数や参照数も重要だとは思いますが、それだけで評価していたら、実用になる研究は評価されないことになりかねない。

この問題はコンピュータサイエンスに限らず、どの分野でもおきうる問題。ただ、コンピュータサイエンスの場合は新規のアイデアが提案されて、10年経って、関連論文がたくさんあるのに、なかなか普及しない技術は何らかの問題があるのだと思いますし、そのとき当該分野の論文数と論文参照数はむしろネガティブ指標とみることもできてしまう。

http://home.att.ne.jp/sigma/satoh/diary/diary101231.html#20101108

他の業界に比べて動きが速いウェブ業界では、実験的なことを出来る機会は有限だと思っています。時代の変化に適応できないウェブサービスには緩慢な死が待っています。なのでそういう貴重な機会を、こういったトラップを避けて、大量の研究からより成功確率が高そうな研究や手法を見つけ、提案・実装し、実サービスに生かせないか皆と一緒に考える、そういったことが私がチャレンジすべき領域だと思っていますし、そういう点ではよいタイミングの入社だと思っています。

長くなりましたが、むかし私が学部の卒業研究も佳境に入っていたときにウェブで出会ったショッキングな言葉を紹介して、入社エントリを終わります。

以前に高林さんに言われた「Webに関する研究ってありえないですよ。だって、Webって考えたことがすぐに現実的なものになる世界だから、研究だとか言ってもったいつけないですぐ実験してみればいいんです。その結果、いいものは広まるし、そうでないものは黙殺される。役に立つかどうかよくわからない研究なんかで論文を書いているより、はるかに意義があります」という意味の言葉が未だに僕の胸に突き刺さっています。

http://blog.nagao.nuie.nagoya-u.ac.jp/nagao/archives/2006/01/google.html

ずっとウェブサービスが好きで開発や運営に興味がありつつウェブの研究をしてきた自分にとって、これは反論しようにも出来なくて、それで私の胸にもずっとこの言葉が突き刺さっていました。でも研究を続ければなんか見つかるんじゃないかと思ってこの言葉を頭に留めながら研究をしてきました。

しかし今は大学院生、そして研究者という立場をいったん離れて、この言葉で主張されているようなことをするのに一番適した場所に、幸運にも立っていることを実感しています。

今の状況としては、エンジニアとして社内で研修を受けているところでして、Perlエンジニアとしての道はつい最近歩き始めたばかりです。そういう意味ではなにぶん遅いスタートではありますが、ウェブ業界の皆様、そしてアカデミアの関連する研究分野の皆様、ともにウェブ業界の未来を真剣に考える仲間だと思っています。今後ともよろしくお願いします。

*1:どなたか失念してしまいましたがURLを共有して下さった方ありがとうございます

*2:たとえば私が卒業研究を始めた2005年にGoogle Scholarでsocial bookmarkで検索してヒットする学術論文は40件ほどだったと記憶しているのですが、今日では22万件ほど存在し、ここ数年で急速に研究されたことが推察できます