2007-06-12 [長年日記]
_ 「TrackBackはもうなかったことにしてはどうか?」とは? - Ogawa::Memoranda
URL間のlinkageを提供する外部サービスを実現して、ブログからは適当なAPIを用いてそのlinkage情報を利用するようにする
ってのは、blogmapの頃からトライしているネタなんだよなー。ちなみに今は亡きblogmapとは、RSSフィードからエントリーごとに含まれるリンク(URL/Amazon商品)情報を解析し、サイトやエントリーごとのリンク/被リンク情報を提供するサービスだった。海外には地図系のblogmapサービスがあるけど、それとは別(それより古かった)。
ただ、blog黎明期(もともとはWeb日記リンク集時代からHTML解析ベースでやっていた)のデータ量が少ない頃はよかったけど、blog時代になってデータ量が爆発的に増えると、どんどん必要なサーバーリソースが増え続けてしまい、さらには大量のspam blogによって耐spam機能を持っていなかったblogmapのシステムは破綻してしまった。
そこで、MM/Memo(ソーシャルブックマーク)を使って、自動的に収集されたデータ(URL)に対して、人力の重み付けを行ったりすることで、耐spam用の情報を得ようと思ったりもしたんだけど、自動収集されたデータとソーシャルブックマークに登録されるデータではその量が圧倒的に違いすぎて、そういう用途では使えなかった。
しょうがないんで、blogmapのシステムを捨て去り、新しく1470.netリニューアル版を作った。blogmapではupdate pingで更新情報が送られてくるサイトのデータを収集していたんだけど、そういうやり方だとspam系データがあまりにも多くなりすぎるんで、1470.netでは情報収集先に人力フィルターを通すようにした。
具体的には、ユーザーは自分がチェックしたいサイトのフィード群を登録し、そのサイト群内での情報の解析(ランキング/新着) をみられるようにした。
たとえば俺の場合は、 これらのサイトのフィード を解析対象として登録しておき、それによって、
という解析情報を得られるようにしている。
この登録フィードは基本的にはRSSリーダーに登録しているものほぼそのまま(OPMLでインポートした)んだけど、RSSリーダーでいちいち全部見ている暇がない場合は、ひとまずこういう解析情報をチェックしておくと、流行りものの状況がなんとなくわかるようになる。
で、こういう風に自分が情報をチェックしたいサイトのフィードを登録してもらうことで、spamサイトではないサイトのフィードを選別し、それによってspamの少ない優良なサイトのフィード群から収集したデータを元にした解析を行おうというアプローチ。
ただ、このアプローチだと基本的に収集するデータ量が少なくなりすぎる。spamが少ないのはいいんだけど、spamじゃないデータも少なくて、元々の目的だったリンク/被リンク情報の解析情報としては、あまりにも物足りないものになってしまう。
たとえばここの場合、 http://1470.net/site/tdiary.ishinao.net なんてURLで、サイト単位の被リンク情報が閲覧できるけど、ここで被リンク情報を見ても、ほとんど有用な情報がとれていない。複数の被リンク情報があるかと思ったら、ソーシャルブックマークサービスとかの新着情報経由だったりするのがほとんど。
ちなみに1470.netの場合は、ドメインのみではなく、 http://1470.net/site/tdiary.ishinao.net/2007 みたいに、パスの前方一致で絞り込むこともできるんで、ディレクトリ単位での言及チェックにも対応できる。エントリー(URL)単位での言及チェックは、http://1470.net/uri/http://tdiary.ishinao.net/20070606.html%23p01 みたいな感じね。というのはここでは本題ではないんだけど。
で、何が言いたいかというと、たくさんのnot spamなフィード情報を1470.netに登録していただけると、データ収集先が増えてもっと有用な情報が得られるようになるかもしれないんで、よろしくお願いします。1470.netにユーザー登録(はてなかTypeKeyのアカウントが使えます)してから、RSSリーダーとかからエクスポートしたOPMLをインポートをするだけで登録できますんで。ちなみにBloglinesはよく壊れたOPMLファイルをエクスポートするので注意してください。



元記事はエントリー間の参照関係の通知をend-to-endのメッセージングに依らない方法で実現することが趣旨なのでblogmapや1470.netとは直接関係ないんですが、歴史と仕組みがよく分かりました。ついでで聞きたいのですが、フィードセットを充実させるためにGoogleやYahoo!のブログ検索を利用する方法もあると思いますが、ダメでしょうか? 実質的に参照関係があり、ノイズの少ないフィード候補が得られると思うのですが。
元記事の話は、
http://1470.net/uri/http://as-is.net/blog/archives/001257.html
にある、「このURIを話題にしたエントリー」みたいな情報を、外部から利用しやすくすることで実現できそうだなーと思っていたんですが、ちょっと違うんでしょうか? ちなみにblogmapの頃には、この情報に外部からtrackbackで参照情報を追加することも可能にしていました。最終的には洋物trackback spamに埋もれてしまいましたが。
検索サービスが提供しているblog検索系機能は、あまり使ったことがなかったのですが、確かにそういうものに乗っかることで、大手の検索サービスのspamフィルターを通った後のフィード情報を得ることはある程度できそうですね。どのくらいちゃんとspamをはじいているのか、調査する必要がありそうですが。