特徵詞選取概念與實作(1)

這篇介紹不同特徵詞選取原理以及實作,將由廣到細節介紹。
首先特徵詞為"從斷好的詞中選取有代表性的詞可以代表原文章或句子",基於不同概念有多種選取方法,可以單獨使用或多種方法一起用。

若要使用多種方法時,依選取方法強弱而有順序性,其順序為:TF、DF、TF-IDF、TF-ICF、PMI、IG、CHI
TF、DF、TF-IDF、TF-ICF、IG皆會算出一種值,PMI與CHI會依照類別數(主題數topic)個數算出多個值,因此在做此兩種方法時有取最大值或平均值兩種取法,每種選法皆是值越大特徵越強。
接著舉一個例子來解釋使用多種選取方法的選取概念:
假設我們要使用TF、DF、IG三種方法,皆選擇前20%大的值之詞,那概念是我們先用TF從詞庫中選取20%之個數的詞,接著再用DF從剛選取出20%個數的詞再取20%,再來用IG從通過TF、DF取20%剩下的詞再取20%。
其意義為,剩下的詞是通過TF、DF、IG選法中剩下的詞,表示此詞在這三種選法下都有很好的表現,足以代表文章。
接下來介紹各選法概念與實作細節
1.TF (Term Frequency)
TF概念很簡單,就是這個詞在所有文章中出現次數越多其越重要,其算法為:
此詞TF值=此詞在所有文章出現次數/所有詞在所有文章出現次數
,在實作上可以使用SQL去斷詞庫計算詞在所有文章的出現次數,也可以從SQL去計算所有詞在所有文章的出現次數就能算出,再經由排序演算法由大排到小,就能選取出前百分比高的TF值了。
剩下的 DF、TF-IDF、TF-ICF、PMI、IG、CHI下篇在介紹...

留言

這個網誌中的熱門文章

Python-相關係數矩陣實作(python-correlation matrix )

ASP.NET-後端將值傳給javascript

ASP.NET-FileUpload上傳後自動觸發button click(FileUpload upload auto trigger button click)