March 16, 2006

Bogofilter

Bogofilter 最近出了 1.0.2 版.
大概在去年底時, 看了 gslin 的介紹, 開始使用 bogofilter-qdbm
用 tar ball 安裝的話, ./configure --with-database=qdbm
使用 qdbm 的速度感覺非常快!
可以調整 bogofilter.cf 裡的 ham_cutoff, spam_cutoff 以適合自己的需求,
0 為 ham, 1 為 spam
ham_cutoff 預設值 0.45, 我使用 0.48
spam_cutoff 預設值 0.99, 我使用 0.85
介於 ham_cutoff, spam_cutoff 的, 會分類為 Unsure
這類使用 Bayesian filtering 的程式, 訓練後開始使用, 很快就能達到九成以上的準確率,
再經長時間訓練, 準確率會有一個上限, 根據個人使用經驗, 很難超過 98%, 要達 100% 簡直是不可能.
Bogofilter 使用四個月, 準確率約 96%
POPFile 使用一年半, 準確率 97.35%
有這樣的準確率而且沒有誤判, 已經很棒了!

Posted by pank at March 16, 2006 12:54 PM
Comments
Post a comment













Remember personal info?