TF 與 IDF
TF(Term Frequency, TF) 為詞頻,指的是一個詞語在一篇文章中出現的次數
DF(Document frequency) 為某詞語在所有文件中出現的頻率
IDF(Inverse document frequency)逆向文件頻率,主要是拿來修正詞頻中高頻率但其實無意義的詞語,舉例來說,像是英文單字中的 a, the, it 等等都是常出現的字,但文件探勘事實上不該納入這些字,因為與其主旨並無相關
透過 TF 就能得出文件中最常出現的詞語,而透過 IDF 修正則可以將文件探勘中詞頻極高但其實並不是我們想要的詞語剔除
那英文字可以透過空格來切割出單字、詞語,中文字沒有空白該如何處理?的確,亞洲語系沒有空白使得進行斷字斷詞的工作變麻煩,所以大多數的研究人員都透過中研院資訊科學研究所詞庫小組(CKJP)所開發的斷詞系統當作工具進行斷字斷詞,有興趣的可以自行找尋相關的資料進行研究!
DF(Document frequency) 為某詞語在所有文件中出現的頻率
IDF(Inverse document frequency)逆向文件頻率,主要是拿來修正詞頻中高頻率但其實無意義的詞語,舉例來說,像是英文單字中的 a, the, it 等等都是常出現的字,但文件探勘事實上不該納入這些字,因為與其主旨並無相關
透過 TF 就能得出文件中最常出現的詞語,而透過 IDF 修正則可以將文件探勘中詞頻極高但其實並不是我們想要的詞語剔除
真正重要的字會得到甚麼樣子的分數呢?如果這篇文章剛好在講『 AI』,『AI』 出現很多次,因此 『AI』 在這篇文章裡面的 TF 很高。然而我們電腦資料庫裡面的 N 篇文章,並不是每一篇都在講 AI,也因此『AI』可能只有在 N 篇文章裡面的某 3 篇文章出現,因此 DF 只有 3,IDF 變成 0.33,假設我們 N = 100 有 100 篇文章在資料庫裡面,其他常出現字像是 『the』 每一篇都出現,DF 就是 100,IDF 就是 0.01。所以 『AI』 的 IDF 會比 『the』 的 IDF 高,假設這篇文章中 『AI』 和 『the』 兩個字出現的次數剛好一樣,乘上 IDF 以後,』AI』 這個字的分數就比 『the』 這個字的分數來的高,電腦也就會判斷 『AI』 是這篇文章重要的關鍵字,而 『the』 這個字並不是這篇文章的重要關鍵字。在該文就有解釋 TF、DF、IDF 的關係,透過這樣的計算來得出我們所想要的關鍵詞
那英文字可以透過空格來切割出單字、詞語,中文字沒有空白該如何處理?的確,亞洲語系沒有空白使得進行斷字斷詞的工作變麻煩,所以大多數的研究人員都透過中研院資訊科學研究所詞庫小組(CKJP)所開發的斷詞系統當作工具進行斷字斷詞,有興趣的可以自行找尋相關的資料進行研究!
以上是 IDF 的公式,其中 qi 為第 i 個詞彙,而 N 為全部文件的數目,而 n(qi) 則是代表包含該詞彙的文件數目,也就是分子是不包含該詞彙的文件數目,而分母則是包含該詞彙的文件數目,至於 0.5 則是為了避免除以 0,既然分母加了 0.5 ,則分子也同加一個 0.5 給他!
Reference:
字字珠璣: TF 和 IDF
Reference:
字字珠璣: TF 和 IDF
留言
張貼留言