トップ «前の日(07-15) 最新 次の日(07-17)» 追記

2002|01|02|03|04|05|06|07|08|11|12|
2003|01|02|03|04|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|02|03|04|07|

2003-07-16

_ Google Web API連携を追加 (13:50)

Google Web APIとの連携を追加。Google Web APIと連携させるだけならば簡単なんだけど、それをどう連携させると面白いのかってところは結構難しいよな。いろいろ考えたんだけど、結局前とほとんど同じ連携の仕方にしかならなかった。けれども、Google経由で取ってきたデータ自体は前よりも再利用性が高い形でキャッシングしているんで、ほかのネタが思いついたら簡単に試せるだろう。

_ Amazon.co.jp Webサービスに対応 (13:50)

ようやくAmazon.co.jpでもWebサービスが始まったんで、それにも対応。こっちはGoogle Web APIよりも多機能なんで、さらに使い道がいろいろ思い浮かぶ。ただうざくないように組み込んでいくのはそれなりに難しいし、HTTPごしだという信頼感のなさにもそれなりに対応する必要があるんだよな。

ひとまず読書感想系ページに関しては、Amazon.co.jp Webサービスにべったりと依存した作りにしてみた。Amazonこけたらみなこけた、になりそうなくらい。ひとまずプリミティブな機能のみを利用してみているけれども、今後もうちょっとリッチな機能もいろいろ使ってみる予定。

それにしても、キーワード検索がまともにヒットしないのはどういうことなんだろう? カテゴリー選択あたりが怪しい気がするんだけど。

_ すげー本がたまっている (13:50)

ここ二ヶ月くらいろくに読書関連の情報を入力していなかったので、未入力の書誌情報がやたらとたまっている。がんばって入力してみたんだけど、半分も入力しないうちにやる気を失った。今日のところはここまで。それにしても、Amazon.co.jp Webサービスが始まってくれたおかげで、書誌情報の入力が楽になったなー。もうちょっとAmazonのDBの精度が高いと、さらにうれしいんだけど。


2004-07-16

_ 公開spam、ham収集アドレス (13:51)

最近クライアント環境でPOPFileを使うのはやめて、サーバー上のSpamAssassinでspam判別を行うようにした。

ただそれだと人間の意志でspam、hamの情報を学習させるのが面倒くさい。そこで、学習データ蓄積用にspam収集専用アドレスとham(not spam)収集専用アドレスを用意した。

spamだと認識されなかったspamメールはspam収集専用アドレスに、spamじゃないのにspamだと認識されたメールはham収集専用アドレスに転送するようにしている。

サーバーサイドではデイリーでそれぞれのMaildirの中身を学習するようにしている。なかなか効率がいい。会社のサーバーにも同じ仕組みを導入して、多人数で学習させるとさらに効果が高そうだ。

ただ、個人とか会社とかみたいなある程度信頼がおける範囲で、そのような仕組みを導入する分にはいいけど、これをたとえば公に公開して、その学習データ(bayes_journal、bayes_seen、bayes_toksだけでいいのかな?)を配信したりするとどうなるだろう。きちんと正しくspam判別機能が育っていくのか、それともいたずらや間違いメールなどで正しくないspam判別機能になってしまうのか。

とか考えていたら、そういえばGmailも似たような仕組みを持っていることを思い出した。Gmailもユーザーが勝手にspam/非spamを申告する仕組みだし、たぶんその情報を使って学習をかけているよな(ベイジアンかどうかはわからないけど。っつーかもしかしたらそこに大量文書の中から類似文書を検索する仕組みを利用していたりして)。

でもあそこの場合は、ユーザーが正しく申告しないと、自分たちの使い勝手に跳ね返ってくるから、ある程度正しい申告をさせる強制力がある。単にメールアドレスを公開するだけだと、そういう強制力が働かないから、Gmailよりもリスクが大きいかな。

本日のツッコミ(全1件) [ツッコミを入れる]

_ のり [松戸にすんでる美容師です。]


2005-07-16


2006-07-16

_ 6時頃から8時半頃までサーバーが死んでました

今朝6時頃から8時半頃まで、フロントサーバーが刺さっていて、応答しない状態になっていました。

CRONDプロセスがやたらと増殖して、プロセス数を食いつぶして、shutdownすら効かない状態になっていた(ハードリセットした)んだけど、これはいったい何だったんだろう?

_ タグ入力補助機能追加中

しばたさんの要望を中心に、タグ入力補助機能を追加していっています。

で、まずタグの「インクリメンタル・タグ補完」を追加しました。タグ欄に文字を入力すると、過去に自分が使用した、その文字から始まるタグを候補として表示されます。ただし、migemo風のローマ字入力→日本語推測→タグ補完まではできていません。これはmigemoを内部で使うよりも、自前で辞書を持った方がいいかもなー。

あと、同じURI、MONOを扱った他のメモに使われたタグを「おすすめ」として表示する機能もつけておきました。MONOの場合は、作者名なども「おすすめ」として表示します。

「関連語のsuggestion」(タグ自体の関連性をたどる)も難しくなさそうなんで、そのうち対応すると思います。

関連語のsuggestionもつけてみました

インターフェース的にはちょっと微妙だけど、使い物にはなるかな。

_ lighttpd+fastcgi+PHP 5って安定しない?

なんかしばらく動かしておくと、CPUパワーを消費し続けるPHPプロセスが生まれて、そいつらのせいでじわじわとload averageがあがっていく。lighttpdを再起動すると直るんだけど、場合によってはlighttpdを再起動しても上記のようなPHPプロセスが居座り続けて、強制的に殺さないといなくなってくれない。どこかに無限ループになるような処理があったりして、そいつがPHP/fastcgiプロセスとしてずっと動き続けてたりするんだろうか? ひとまず定期的にlighttpdは再起動しておくのが無難か?