词频-逆向文件频率(TF-IDF),TF-IDF表示了单词的重要性。

一个单词的词频(TF)是该单词在文档中出现的次数:

TF(“cow” in document) = C(“cow” in document)/C(all words in document)

一个单词的文件频率是指包含这个单词的文件在所有文件中占的数量

DF(“cow”) = log(C(all documents)/C(documents contain “cow”))

例如,如果文档1中的“cow”出现4次,并且文档1包含100个词,则文档1上的单词“cow”的词语频率为0.04。 如果“cow”存在于100个文档中并且总共有10000个文档,则“cow”的文档频率为log(10000/100)= 2。因此,TF-IDF为0.04 * 2 = 0.08。


       程度副词词典
       否定词词典
       停用词词典
       文章分类
       智能写作
       语音播报
       评论分类
       内容推荐算法
       文本审核
       用户信息审核