百香果nlp(nlp.100xg.cn):欢迎提交人工智能术语、及人工智能公司、NLP公司、大数据公司词条。相比百科类收录更容易通过,并将在这里展现;

加入百香果社群(www.100xg.cn):自然语言处理(NLP ) 、 人工智能(AI)。还可以 申请 自己公司、项目、产品领域社群。

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。

TF-IDF是关键词提取一个可以说是首先想到的解决方案,它说自己第二,没人敢说第一。当然它的理论也是比较好理解的,归结起来一句话:在一篇文本中那些不常出现(此处指的文本集)的词在当前文本中大量出现,那它就是关键词;TF、IDF也相应的就是两个概念,想看理论,查查便知;具体到应用层级来说,对于大量文本,语料比较丰富的场景下,这种方式提取关键词来说,确实也是比较方便和准确的,但在语料不足的情况下,可能也就just soso了。但是思想是最重要的,这也是我们入门的基础。

概念

TF-IDF是指词频-逆文档频率。针对词语重要性的一种加权统计方式。全称:Term Frequency-Inverse Document Frequency。

场合

常用在信息检索、文本挖掘等技术中,作为加权因子。

TF-IDF的核心思想为词条的重要性随着该词条在当前文档中出现的次数成正比增加,但同时会随着它在语料库(所有文档)中出现的频率成反比下降。

公式

TF-IDF = TF(词频) * IDF(逆文档频率)

含义解释:

TF:词频统计,对文章中词语出现的频率进行计数统计

TF = (当前的文档单词出现的次数)/(当前的文档中包含的单词总数)

IDF:逆文档频率,指语料库中文档总数与语料库中包含该词的文档数,二者比值的对数。

IDF = log((语料库中文档总数)/(语料库中包含该词的文档数+1))

例子

昨夜星辰昨夜风

我们一起学习自然语言处理

昨夜下了一场大雨

星期二是晴天

计算第一个文档"昨夜"的TF-IDF值?

TF(昨夜) = 2/4

IDF(昨夜) = log(4/(2+1))

TF-IDF = TF * IDF = 1/2*log(4/3)

       刷脸支付自律公约
       营销场景机器人
       人事行政机器人
       智能营销机器人
       智能交互
       今日热搜
       今日热榜
       体育营销
       体育扶贫
       出海