いしなお!
2006-07-14 [長年日記]
_ [tDiary][spam][ツッコミ][trackback] すみません、ここ数ヶ月古い日記に対してのツッコミ、trackbackに気づいていませんでした
tDiaryのspamフィルタの設定で、10日以上前に対するツッコミ、trackbackをspamとして非表示受信(通知メールもなし)にする、という設定をしていたのをすっかり忘れていて、ここ数ヶ月10日以上古い日記に対してのツッコミ、trackbackがあっても全然気づいていませんでした。
今古い日のデータを見直してチェックしていますが、今まで古い日記にツッコミ、trackbackをくれた方々、反応できなくてごめんなさい。
_ [1470.net][blogmap][Feed] blogmapでのフィード配信をはじめました
blogmapの注目URI、注目MONO、新着URI、新着MONOのフィード配信をはじめました。ちなみにリニューアル版のblogmapってのは、いったいどういうものなのかというと、複数のフィードを解析した結果をフィード配信する(HTMLでも見れますけど)ための、フィード解析&フィルタリングツールになります。
「ITmedia Biz.ID:“情報を読まない”情報収集術――「未読RSS恐怖症」対策」みたいな話もありましたけど、RSS/Atomフィードリーダー等の発達とフィード配信を行うサイトが増えることによって、情報を素早く大量に収集することが可能になっていますが、そうやって収集された大量の情報を人間が吸収する段階がボトルネックになりつつあります。
そこで、単に情報を素早く大量に集めるだけでなく、その情報をうまく吸収する仕組み(良くできたRSSリーダーだとか、あるいはソーシャルブックマークの注目リストやお気に入り機能など)がいろいろ用意されはじめているわけです。そういう情報の吸収方法を効率化する仕組みの一つが、blogmapになります。
blogmapではフィードリーダーと同様に、ユーザーが自分のお気に入りのRSS/Atomフィードを登録していきます。しかし、ふつうのフィードリーダーと違って、フィード情報をそのまま(たとえば新着順などで)表示すると言うことはありません。
blogmapでは、フィードに含まれるエントリー情報から、
- リンクしたURL(Webページ)に関する情報
- リンクしたMONO(Amazon商品ページ)に関する情報
を解析し、その二つの情報をキーとして、
- 新しくリンクされたURL、MONOに関する情報
- 最近よくリンクされているURL、MONOに関する情報
というリストを作ります。つまり、いちいち実際のエントリーの内容を読まなくても、URL、MONOに関する情報のみを自動的に抽出してくれるわけです(参考 :私のblogmap)。
いわゆる読み物系サイトなどの場合は、エントリー本文を読まないと意味がありませんが、情報中心のサイトの場合は、まずURLおよびMONO系情報のみをチェックするだけで、十分に有用な情報が手に入ります。そこで何か気になる情報が見つかった場合は、そのURL、MONOに関する情報を扱っているエントリー本文を読んで、さらに詳しい情報を得ればいいのです。
このような処理は、技術力のある人ならばPlaggerなんかを使って、独自のフィルターを作ることによって対応していることでしょう。しかし、Plaggerは誰でも使えるツールというわけではありません。
リニューアル版1470.netに搭載したblogmapは、そういった高度なフィルタリング処理を、誰でも簡単に実現できるようにしたツールなのです。
という理想の元に設計したわけですけど、実際にそういう風に使えるのかどうかはまだ分かりません。まあぼちぼち使ってみて、不満や改善案などがあったらコメントください。
MM/Memoのお気に入り相当の機能は
リニューアル版1470.netの各ユーザーのフィードをblogmapに登録することで、それらのユーザーのフィードをミックスした新着情報、注目情報が抽出されるようになります。
他のSBMのフィードの場合
blogmapでは、基本的にblog等のエントリー情報を含むフィードを解析し、そのフィードの本文(description、content:encoded、contentなど)内に含まれるURLを解析します。
一般的なSBMの場合は、そのフィードのアイテム要素としてURL情報を持ち、本文等にそれらURLへのリンクを持たないため、同じロジックでは解析対象となりません。1470.netのように、本文要素にURL情報を含むフィードを配信するSBMの場合(あるのか知りませんけど)は対応できます。
アドホックに有名SBMを別扱いに処理することも不可能ではありませんが、できればそういう汚い実装は避けたいので、現時点では他のSBMで提供されるフィードをblogmapに登録しても、そのURL等は解析対象にはなりません(/uri/*系の情報には、どのフィードに登録されたかなどの情報が表示されるようになるので、登録しても意味がないわけではないですけど)。
このあたりは何かいい方法(統一的な扱いで、なおかつ有意な情報を得る方法)が見つかるまでは、ペンディング状態です。
具体的な利用イメージとしては
主に情報提供系サイトで、
- その主たる内容が、URL抽出によっておおむね表現される
- RSS/Atomフィードで全文(もしくはそれに近い)コンテンツを配信している
- 日々更新される情報量が多くて、すべてのエントリーを読み切れない
ようなサイトに関しては、RSS/Atomフィードリーダーに直接登録するのはやめてしまいます。代わりにそのようなサイトはblogmapに登録し、blogmapの新着もしくは注目URIのフィードをチェックするようにします。
そうすることで、エントリー本文を毎回チェックするサイトと、情報の中の一部のみをチェックするサイトを区分し、日々の情報の整理を効率化させよう、といった感じになります。
ただまあ私の場合は、普段フィードリーダーでエントリーを全部読むサイトもそうでないサイトも、コンテンツ本文が配信されているサイトはほとんど登録しちゃってますけど。
MONO系のfeedの、<link>〜</link>内のAmazonのURIの先頭に、何故かダブルクオーツが入ってしまっているのですが。 RSSリーダーでは読めるみたいなんですが、そこからAmazonへ飛ぼうとすると、404になってしまうのです。
「"」のゴミがRSSフィードのテンプレートに混ざっていたので除去しました。同じパターンのゴミは一通り除去したと思いますが、また何かありましたら教えてください。