2003-04-21 [長年日記]
_ MicrosoftPrototypeCrawler (13:49)
この間「検索に力を入れるMS――Overtureとの関係に影響? from ZDNet」で、
>でもマイクロソフトが下手に検索システム関連の開発を強化すると、インターネット上にさまざまな迷惑(主に規格違反系)を巻き起こしそうな気がするな。
と書いたことが早くも現実になりかかっている模様。この週末から目立ってやってくるようになった「MicrosoftPrototypeCrawler (please report obnoxious behavior to newbiecrawler@hotmail.com)」ってクローラーだけど、頻度はまだ許容範囲なんだけど、再帰的なURLの解決の仕方が腐っている。
というのは、うちのサイトには「./」というカレントディレクトリのインデックスファイルへのリンク表記を使っているページがあるんだけど、再帰処理をする際に「./」を削って最適化せずに、文字列完全一致でURLの同一判定をしているらしい。というわけで、たとえば「http://ishinao.net/」に「./」というリンク文字列があった場合、「http://ishinao.net/./」「http://ishinao.net/././」「http://ishinao.net/./././」「http://ishinao.net/././././」と延々とリンクをたどり続けてくれる。
しかも、うちのサイトはWikiLikeのようなキーワード検索リンクが山のようにあるのを、その形式で延々とつついてくれている模様。この状態がしばらく続くようだったら、完全拒否モードにするしかないかな。obnoxious behaviorをreportしようかなーと思っても、その宛先がhotmailアカウントのメールアドレスのみじゃー、とても実行する気になれないし。
一応補足しておくと、まだ「././」の2階層目をたどり始めた状態なんで、3階層目以降まで本当にそのまま再帰するのかは現時点では不明。2階層目までの挙動からの推測です。為念。
2003/04/26追記
前回は2階層目まで掘ったところでこなくなったんで、問題に気付いていったん処理を停止させたのかなーと思ったんだけど、昨日あたりからまたやってくるようになった。相対パスを使ったURLの解決が腐っている状態は相変わらず(まだ1階層目「/./***」を掘り始めた状態だけど)。UserAgent名はちょっと変わって、「MicrosoftPrototypeCrawler (How's my crawling? mailto:newbiecrawler@hotmail.com)」になった。あと「検索エンジンの裏側(http://internet.watch.impress.co.jp/www/column/kensaku/0422.htm)」にちょっとだけこのクローラーの話が載っている。
_ BasicReaderとか (13:49)
- SharpReader - http://www.hutteman.com/weblog/cat_sharpreader.html
.NET Framework上で動作するRSS Feed Reader「SharpReader」をようやくちょっとだけ試してみた。ちゃんと日本語環境でも使えるね。あとはTrackBack対応とかを推し進めていってもらえると、WebNikkiExplorerの開発を進める必要もなくなりそうだ。
と思いつつも、SharpReaderという名前に反応して、BasicReaderという名前でRSS Feed Reader+TrackBack Tracerツールを作りたい欲望が……。単にそれだけのネタのために作るのはばからしいかなー。ところでSharpReaderのSharpってC#のSharpなんだよね?
せっかくだから、自分のなかのライセンス絡みの葛藤にけりをつけるために、試しにGPLで作ってみようかなー。仕事以外で作るソフトのライセンスって、いまだにどう処理するのが一番いいのかわからない。よく検討せずにGPLにしちゃうのは思考停止に過ぎないような気がするし、かといって真面目に検討し始めると結論が出ない。試しに1本GPLでソフトを公開したら何かわかるかな。

