トップ «前の日記(2004-12-15) 最新 次の日記(2004-12-17)» 編集

いしなお!

2002|01|02|03|04|05|06|07|08|11|12|
2003|01|02|03|04|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|02|03|04|07|
2009|03|10|

2004-12-16 [長年日記]

_ [blogmap] ランキングRSSにcontent:encodedを追加 (08:41)

ランキングRSSのdescriptionの代わりにcontent:encodedを追加し、従来よりもちょっと詳しい内容を埋め込むようにしました。あと、ついでにtrackback:pingも一応入れておいたけど、これに対応しているリーダーってあるのかな?

_ [blogmap] 巡回ロジックについて (09:32)

blogmapの巡回方法は、

  • 公開されているアンテナ(LIRS)やRSS配信サイトから定期的に、さまざまなサイトの更新時刻情報を取得する
  • blogmap weblogUpdates.pingサーバー(http://1470.net/api/ping)にpingが送られたサイトはリアルタイムで更新時刻を変更する
  • 更新されたサイトが、
    • 未登録サイトの場合は、RSS AutoDiscoveryを試み、RSSが見つかった場合はそれを情報収集先URLとして登録する
    • 既登録サイトの場合は、RSSのURLが登録されていれば次回巡回時にRSSを取得し、descriptionもしくはcontent:encodedに含まれるURL、ASIN情報を解析する

となっています。現在更新時刻情報を取得しているサイトは、

です(要は記事単位ではなく、サイト単位での更新時刻が取得できるところ。記事単位の更新情報からもデータを集めることは可能なんだけど、いろいろ問題がありそうなんでやめた)。あと、上記から更新時刻情報を取得できていないサイトのうち、私が個人的にチェックしているサイトは自前で適当に更新チェックをかけたりしていますけど、これは将来的に内蔵のアンテナ機能に置き換える予定です。

というわけですので、blogmapに確実に情報を収集される方法としては、

  • RSSを配信し、できるだけ多くのURL、ASIN情報をRSSに含める
  • RSS autodiscoveryに対応する
  • 更新情報取得先アンテナ、pingサーバーにpingを送る(更新情報取得タイミングによっては、たまにデータ収集対象から漏れてしまう場合もある)。あるいはblogmapのpingサーバーにpingを送る(こっちの方が確実)

としておくといいかと思います。RSS autodiscoveryに対応していないけれども、RSSを配信しているという場合は、ツッコミかメールでRSSのURLを教えていただければ、手動で登録します。逆に現在情報収集先に登録されているが、データ収集をされたくない場合も、申し訳ありませんがメールかツッコミでサイトのURLを教えてください。巡回対象から外します。

_ [blogmap] サイト情報を追加 (15:27)

「サイト情報」ページを追加しました。ちなみにうちの場合は、

なんて感じになります。現状では、

  • 他サイトからリンクされている記事一覧
  • そのサイトで今まで紹介したメディア一覧

を表示しています。自分のサイトの情報を見てみたい場合は、SEARCHから自サイトのURLで検索し、[サイト情報]をクリックしてみてください。

なんかこの機能をつけたら、ずいぶん本来の目的であったblogmap(blogサイト関係図)っぽい感じになったなー。ってあたりで、そろそろサーバーの負荷的に限界が見えてきたかも。まだつけたい機能はたくさんあるんだけどなー。

_ [SPAM] 今日のREFERER SPAM (17:04)

ちょっとたちが悪いなー。いつもの絨毯爆撃系なんだけど、1日に3回もIPアドレスを変えてやってきているし、しかもIPアドレスも80.58.46.235 80.58.34.237 80.55.195.214と最初のオクテットしかあってない。プロバイダもひとつじゃないみたいだし。

しょうがないんで、80.で丸ごとアクセス拒否することにした。けど、どうやらこのSPAMスクリプトはHEADリクエストしか使わないみたいなんで、ひとまず、

<Limit HEAD>
 deny from 80.
</Limit>

ってことで。なんかまずい人がいたら言ってください。

_ [読書] (19:24)

西太后は民主主義の英雄だったというすごいストーリーを骨格に、清朝末期の中国を、

  • 貧乏な糞拾い出身の少年宦官
  • 不良少年出身の英才官僚
  • 西太后を始めとした、滅びつつある清朝政府首脳陣
  • 各国中国特派員たち

というさまざまな視点から描いた大作。西太后関連の話があまりにもトンデモすぎて、そこだけがいまいちむずがゆかったけど、後は相変わらずの浅田次郎節で面白かった。

特に最後ぐだぐだになりつつあったところで、主人公が見得を切るところがなんかやたらと格好良かった。なんかもう「チャー!」って感じ(意味不明)。

ところでこの辺の歴史的事実ってほとんど覚えてないから、どう見てもトンデモ度が高いこの小説の話が、俺の中で史実になってしまいそうな予感。

本日のツッコミ(全6件) [ツッコミを入れる]
_ ななし (2004-12-16 10:45)

す、すごい・・・<br>こんなすごいの自分が作れたら楽しそうですね。<br>PHPとPERLとMYSQLで作られたんですか?

_ sharl (2004-12-16 11:05)

急いででっち上げました。<br><br>http://sharl.hauN.org/RSS/index.rdf<br><br>こんなのはだめでしょうか?<br>拾っていただけると嬉しいです。

_ ishinao (2004-12-16 14:39)

>ななしさん<br>PHP+MySQLです。前はバッチではPerlも使ってたんですけど、今回はバッチも全部PHPで書いてます。<br><br>>sharlさん<br>多分巡回対象になったと思います。各サイトのRSSが正常に登録されたのは確認できたんですけど、http://sharl.hauN.org/RSS/index.rdfの方が、こちらが想定している形式とちょっと違っているので(※1)<br>、巡回時の処理はちょっと微妙かも(※2)。<br><br>※1 link要素として、RSSではなくHTMLのURLを想定している<br>※2 サイトを特定するキーとして各サイトのHTML版URLを使っているので、RSSがサイトのURLとして渡された場合、各サイトのRSSを取得し、そこから各サイトのHTML版URLを求め、それをキーに検索し直す、という無駄な処理が発生する

_ sharl (2004-12-16 15:32)

rdf;about はそのままに link をサイトのURIに変更しました。アドバイスありがとうございます。

_ ishinao (2004-12-16 15:56)

>sharlさん<br>いま試してみたら、ちゃんと一発で各サイトの更新時刻が取得できるようになってました。

_ sharl (2004-12-16 15:58)

テストがうまくいったようで、よかったです。<br>ありがとうございました。