2002-04-25 [長年日記]
_ キーワードでの関連づけ
GETしてstriptagしてChasenで形態素解析して名詞らしき単語だけを抽出し、それをベースに解析すれば、日記本文中に使われているキーワードを使った関係図の作成も、なんとかなりそうな気がしてきた。
ただ、よく使われる一般名詞と固有名詞をどうやって差別化するかが難しい。単純に出現した単語でリンクを張っていくのではなく、その単語のweb全体での出現頻度の増減を監視して、「増減が激しかったキーワード=話題のキーワード」と捉えることで、なんとかなるかな? あと、出現数があまりにも多すぎる単語は、一般名詞として解析対象から捨てるようにしたり。
というのは、一つの単語(名詞)=キーワードという単純な場合に有効そうだけど、実際のことを考えると、単語の組み合わせという形で表現される話題が非常に多そうだ。そうなると、あるページで出現した単語の組み合わせがほかのページでも使われているか、という多対多の組み合わせ数をカウントする処理が必要になって、マシンパワーを激しく食いそうな気が。自動で全パターンをカウントして解析するのはつらいかな。
_ 書影リンク拡張
Amazon.co.jpのアソシエイトプログラムには、書影付きリンクの方法が用意されていることに今さらながらに気がついたので、hnsを強引に拡張して書影付きリンクに対応させてみた。相変わらずhns(というか、PerlっぽいPerlプログラム)がよくわかっていないので、実装方法がかなり強引かもしれない。具体的にどうやったのかというと、
- theme.phの「package HNS::Hnf::Command::IMG」部に、「$TemplateWithISBN=qw(<a href="http://www.amazon.co.jp/exec/obidos/ASIN/%2/my-associate-id"><img %align src="http://images.amazon.com/images/P/%2.09.MZZZZZZZ.jpg" alt="%content" border="0">)」というのを追加
- Command.pmの「package HNS::Hnf::Command::IMG」のTemplateに「use vars qw($TemplateNosize $TemplateWithsize $TemplateWithISBN);」を追加。
- Command.pmの「package HNS::Hnf::Command::IMG」のsub AsHTMLで、Templateを切り変えているif文の冒頭に
if ($src =~ /^isbn:/i ){ $Template = $TemplateWithISBN; $src=~s/^isbn://i; $self->{attr}->[2]=$src; } elsif ……を追加
って感じ。これで「IMG n ISBN:4344402146」なんてやると、
な感じになる。ここはほとんど画像がないデザイン的に寂しいページだし、せっかくだから読書感想の項目にだけでも書影リンクを張って、ちょっと華やかにしてみようかな。

