卡方檢驗選取特徵詞(Chi Square Test Feature Selection)
其概念跟IG (Information Gain)有點類似,必須有類別(Class)的概念,再使用卡方檢驗在選取特徵詞時,要先確定兩事件是獨立的,應用在特徵選取這兩個事件分別是某詞的出現與某類別的出現。其公式如下。
t:某詞
N:文章的數量A:某詞有出現在此文章且某詞類別與此文章類別相等的總和
B:某詞有出現在此文章但某詞類別與此文章類別不相等的總和
C:某詞沒出現在此文章但某詞類別與此文章類別相等的總和
D:某詞沒出現在此文章且某詞類別與此文章類別不相等的總和
經由公式即可算出所有詞的卡方值,說明對原假設的偏離越大,我們越傾向於認為原假設的反面情況是正確的,即卡方值越大表示與此類別越相關,越具有代表性。
留言
張貼留言