Spam! Spam! Spam! ってうるさいなあ。-3

(承前)
POPFile、最強であります。現在の振り分け率は自宅アカウントで368:19(94.83%)、会社アカウントで2965:130(95.61%)と非常に良好。

ベイズの性能もさることながら、圧倒的に優れているのはそのインターフェース。

まず、Webからコントロールできる点。これは環境を選ばない、ということで(セキュリティ的にはオススメできませんが)、どこからでも振り分け状況の確認や再学習操作ができるわけです。
加えて、細かい部分の作り込みが必要にして十分であること。一日に数通程度ならともかく、100通単位で来る人間にとっては一覧の総表示件数が変えられるのは非常にありがたい。さらに、バケツ属性でソートが利くので、「ham(お分かりとは思いますが、spamぢゃないメールのことですな)」だけを表示して確認→再分類→削除……といった処理ができます。(似たようなことは「フィルタ」タブを使ってでもできるわけで。道が複数あるのはいいインターフェースです。。)

あ、あと、メールサーバに直接仕込んで運用しているんで、クライアント側としてはストレスゼロ。厳密には毎回全文を解析するわけだから遅くなっているはずなんですが、ほとんど意識されません。たぶん、ARENAの受信速度がもともと遅いせいでしょう。(笑)

それから、「日本語パッチ」をあてるのをサボって運用中なんですが、なんかうまくふりわけられています。日本語のわかち書きもちゃんとやっている風だし。100通に一通くらい、「どうしてコレのふりわけに失敗するんだろう……」というメールもありますが、そういうのはたいてい全部英文。

運用レベルの問題については、ワタシは家でも自宅でもだいたい同じアカウントをチェックしているんで、最初のうちはどっちもPOPFile経由にしていたんですが、よく考えたら学習する数を単純に倍にしている(つまり、そのあとの仕分け作業も倍やらなければならない)ことに気づき、不要な学習はさせないように方針を変更しました。よく考えれば当たり前なんですが。どうも似たようなメールを何度も仕分けている、と思ったらそういうことだったんですね。しくしく。

ここ一週間ばかり使ってみて非常に優れている、と感じたのは、POPFileがプロクシとして動いている、という点。クライアントビルトインではなく、サーバモデルとして動くわけでもない。クライアントからの要求があって始めて挙動するので、セキュリティやアカウントについての設定が最小限で済む。(私は最初、POPFileにメールアカウントの情報なんかを入れておくんだとばっかりおもっていた。これらはすべてクライアント側にあれば良い情報なのだ。)「そもそも自分のアカウントをキレイにしてしまいたい」という向きにはSpamAssassinのようなモデルが適しているが、これらには肝心の「スパムかどうかの判定のフィードバック」という部分の作り込みが決定的に欠けている。サーバインストール、というレアケースでの運用なんですが、POPFileの形態が現状ではベスト、と断言できるでしょう。

あとはとにかく複数ユーザでの使用に耐えられるような構造、ですな。がんばれ>開発チーム

[2004-01-13追記]
あー、快適。最近はいちいち「コントロールセンター」は開かず、ときどき自分のメーラーのspam入れを見て、振り分け損ねたものだけ再振り分け処理してます。ヘッダにコントロールセンターの該当メールへの直リンが入っているので、そこをワンクリック→再分類→削除。スパムの量はかなり膨大なんで、当初やっていたように「会社ではPOPFile経由、自宅ではスルー」というルールも早々に撤廃しました。全部POPFile通し。コントロールセンターには、必要ない限り行かない。なんか2000通くらい貯まっていますがとりあえず放置。不満といえば、時たまPerlが「ブロークンパイク」とか言って死ぬことくらいかなあ。。<意外とデカい問題

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です