2005-01-07 [長年日記]
_ コメントSPAM襲来 (02:05)
たまたまPCの前にいたんで、5、6発目の段階で、
deny from 198.26.120.13
できたけど、運が悪いと100発くらい食らって、それがどかどか通知メールで送られてきて&RSSリーダーに載ってうざいんだよなー。
_ またゲロ (02:07)
また下の子がゲロリンパですよ。せっかく正月休みで風邪も治っていたのに、1日保育園に行っただけであっさり復活ですか。しかも今日は夕飯をたんまり食べていたらしく、寝ながら上を向いて吐いたゲロが5センチくらい吹き上がりましたよ。なんかもう大人並みに立派なゲロでもらいゲロしそうになるし。なんかもう部屋中が酸っぱいにおいで満載ですよ。
_ Anti Referer Spam プラグイン ver 0.9導入 (13:19)
英文/URLオンリーSPAMは拒否する設定にしてみた。
_ svnでhttpsが使えない (16:16)
RedHat9のマシンでコンパイルしたSubversion 1.0.3(svn)が、httpsをUnrecognized URL schemeだとぬかして扱えないんで、1.0.9にあげてみたんだけどそれでも使えない。
よく見たら、同梱されているneonがnot SSL supportになっていたんで、neonディレクトリに下りて、./configure --with-sslしてからコンパイルし直したら、httpsサポートしてくれるようになった。
なんかググってもあんまり情報が見つからなかったんで、一応書いておこう。
_ mainichi-msnにcurlでアクセスできない (16:25)
blogmapでmainichi-msnのページのタイトル文字列を取得しようとすると、curlベースで作ったライブラリでHTTP GETするのに失敗する。timeoutを短めに設定しているんで、もっと待ったら成功するのかもしれないけど、少なくとも数秒程度ではアクセスできない。
ググったら、curlやw3mではうまくアクセスできないらしい(DNS解決周りの問題?)んで、curlを使うのをやめて、PEARのHTTP_Requestベースに書き直したら、ちゃんとタイトルを取得できるようになった。ついでに、クローラーがcontent-encoding: gzipに対応するようになったけど、どのくらい意味があるかな?


この寒い時期に、夜中にゲロの始末。。。ほんとたいへんですよね。
わたしも、上の子が小さいころ消化器系が弱くて、何度も経験あります。当然のようにさっさと片付けるおとうさんの株が急上昇、というのも、わたしの経験ですが。おだいじに。
なんか最近(というか、冬場は毎年か?)ウイルス性の吐く風邪が流行っているらしいですねー。
子供(乳児)の吐く風邪は、なかなかスリルがあるというか、反射神経が養われます。わずかなえづきも逃さずに、1秒以内に洗面器で受け止めなければならないし。
なんかそういうゲーム作れそうだな。ゲームウォッチ系。
コメントスパムやトラックバック・リファラースパムに関してなのですが、blogmapでクロールする際、コメントやトラックバック・リファラーの情報に、多数のサイトに同じURLが記録されていたら、それをブラックリストとしてRSS配信する、ということは出来ないでしょうか。
そしてブログツールはそのRSSから、自動的にコメントスパムやトラックバックスパムを拒否や削除してくれるように出来るわけです。
ORBSとかメールのブラックリストのブログ版というイメージです。
blogmapなら、現在のシステムに少し手を入れるだけで構築できるのでは、と思うのですがいかがでしょうか。
http://d.hatena.ne.jp/stealthinu/20050222/p1
現在のblogmapはRSSフィードだけをクロールしているんで、その中にコメントやトラックバックが含まれるようなサイトじゃないと、コメントやトラックバックの情報が取得できません。
またたとえコメントやトラックバックの情報をクロールできたとしても、多数のサイトで同じURLが記録されていた場合、それが「人気があるからリンクされた」のか「スパムの被害にあった」のかを判別する方法が必要です。そのあたりでいい案があれば、そういうアプローチでのブラックリストの作成は可能かもしれません。
ただDBを作るというのならば、単純にTypeKey認証付きの通報窓口&DBを作ったりした方が話が早いかも。あるいはどこかのブックマークサービスにその手のURLをspam blacklistなんてタグを付けてみんなで登録したりとか。
なるほど、RSSにはコメントやトラックバックを示す要素自体ないから、どうにもならんのですね。
だとすると、アンテナのようなシステムを使って、代表的なブログツールのコメントやトラックバックの要素を抜き出せるようにする(<div class="comments-body">やら<p class="posted">やらで抜き出す)しかなさそうです。
と考えると、ブックマークサービスにタグ付けて登録、というのはシステム組む必要なくすぐ出来そうで良いのですが、だれがどうやって音頭とるか、というのが一番の問題になりそうですね。