2005-03-31 [長年日記]
_ blogmapの巡回がはてなダイアリーに偏っている? (01:14)
『blogmapの「『『ユリイカ』2005年4月号特集*ブログ作法』(青土社)のネットでの評判」が?Dだらけだったという件について』のコメント欄のやりとりあたりへの反応。
blogmapは、各blogサイトの更新時刻情報を取得し、それを元に巡回をしています。はてなダイアリー上にあるサイトの更新時刻情報は、
からかなり確実に取れるんですが、それ以外のサイトに関しては、ping.bloggers.jpとかbulkfeedsとかの公開pingサーバー経由で更新情報を取得しているんで、それらにpingを飛ばしていないサイトは巡回対象から外れます。
blogmap自身でも公開pingサーバー(http://1470.net/api/ping)を用意しているんで、ここにpingを飛ばしてもらえると一番確実に巡回対象になります。
ということで、blogmapの情報ソースにはてなダイアリーの情報がやたらと多いのは、巡回のきっかけになる更新時刻情報の精度が高いから、というのが第一の理由でしょう。
あと、最近はてなダイアリーはRSSのdescriptionに含まれる情報量を増やせるようにしました。また、もともと日記系ツールということで、1エントリー(<h3>タグ間)が短くなりがちな分、他のblogツールと比べるとdescriptionの中に本文中の主要な要素(ISBNとかURLとか)が含まれやすくできています。
一方、通常の(MT系みたいな)blogサイトだと、1エントリーは長文になりがちで、その冒頭をdescriptionとして取り出した場合に、blogmapの解析対象要素がそこに含まれないという場合が出てきます。
たとえば、「絵文録ことのは」がblogmapのユリイカに言及したサイトとして表示されない=blogmapで巡回されていないという話が出てますけど、これは巡回されていないんじゃなくて、絵文録のRSSの該当エントリーのdescriptionにユリイカのISBNコードが含まれていないんで解析できなかった、というのが正解です。
blogmapは1470.netに移転したタイミングで、HTMLではなくRSSのdescriptionもしくはcontent:encodedのみを解析するようになったんで、本文中でふれている話題でも、RSSに載っていなければなかったものと見なされます。旧バージョンではHTMLを直接解析していたんで、本文中に書かれていればすべて解析対象になったんですけど。
ちなみにblogmapが2005/3/1以降に巡回した(ユニーク)サイト数は324250サイトで、そのうちはてなダイアリーのサイトは49671サイトでした。だいたい1/6くらいなんで、割合として結構多い方であることも確かですね。
_ 新着ランキングのRSS (17:24)
blogmapの新着ランキングでRSS配信をはじめました。っつーか、ここまだRSS出力作ってなかったのか……。
- URLの新着 - http://1470.net/bm/newcommer.html/url?mode=rss
- メディアの新着 - http://1470.net/bm/newcommer.html/asin?mode=rss
になります。ちなみに汎用RSS UTF-8化ゲートウェイを通してUTF-8で取得する場合は、
- URLの新着 - http://1470.net/api/rss2utf8.php/http://1470.net/bm/newcommer.html/url?mode=rss
- メディアの新着 - http://1470.net/api/rss2utf8.php/http://1470.net/bm/newcommer.html/asin?mode=rss
なんて感じになります。UTF-8しか扱えないRSSリーダーを使っている方はこちらをどうぞ。
_ blog本のおまけ記事を追加しました (20:48)
RSSを出力するサンプルは書いたけど、RSSを読み込んで利用するサンプルは実用性のないサンプル(単にRSSを読み込んで、各要素が配列に入ったでしょ、で終わり)だったんで、もうちょっと実用的なサンプルをおまけで書いておきました。
PING記事を書いている方にトラバックをさせてもらいました。ありがとうございます。よろしければ見ていってください。これからもよろしくお願いします♪




わざわざ解説ありがとうございます。
なるほどそういう理由があったんですね。
こちらのエントリにも追記しましたです。
いえいえ。blogmapというか、うちのサービスはドキュメントの類がほとんどないので、外部から見ていると謎の部分が多いんですよね。本当ならば、何をどうやっているのかわかるようなドキュメントを用意しておきたいんですけど。基本的な使い方の説明すらないし。
なるほど、何となくわかりました(´ー`)ノ