卡方檢驗選取特徵詞(Chi Square Test Feature Selection)


其概念跟IG (Information Gain)有點類似,必須有類別(Class)的概念,再使用卡方檢驗在選取特徵詞時,要先確定兩事件是獨立的,應用在特徵選取這兩個事件分別是某詞的出現與某類別的出現。其公式如下。





t:某詞
N:文章的數量
A:某詞有出現在此文章且某詞類別與此文章類別相等的總和
B:某詞有出現在此文章但某詞類別與此文章類別不相等的總和
C:某詞沒出現在此文章但某詞類別與此文章類別相等的總和
D:某詞沒出現在此文章且某詞類別與此文章類別不相等的總和

經由公式即可算出所有詞的卡方值,說明對原假設的偏離越大,我們越傾向於認為原假設的反面情況是正確的,即卡方值越大表示與此類別越相關,越具有代表性。

留言

這個網誌中的熱門文章

Python-相關係數矩陣實作(python-correlation matrix )

ASP.NET-後端將值傳給javascript

ASP.NET-FileUpload上傳後自動觸發button click(FileUpload upload auto trigger button click)