百香果nlp(nlp.100xg.cn):欢迎提交人工智能(AI)、自然语言处理(NLP)、大数据(big data)、机器学习(ML)、数据挖掘(DM)、知识图谱、智能硬件、工业互联网、工业机器人、云计算、5G网络、物联网、边缘计算(MEC)、机器人流程自动化(RPA)、前沿科技相关的公司、术语、API接口、项目、产品领域词条。快速提交,并将在这里展现。

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。

TF-IDF是关键词提取一个可以说是首先想到的解决方案,它说自己第二,没人敢说第一。当然它的理论也是比较好理解的,归结起来一句话:在一篇文本中那些不常出现(此处指的文本集)的词在当前文本中大量出现,那它就是关键词;TF、IDF也相应的就是两个概念,想看理论,查查便知;具体到应用层级来说,对于大量文本,语料比较丰富的场景下,这种方式提取关键词来说,确实也是比较方便和准确的,但在语料不足的情况下,可能也就just soso了。但是思想是最重要的,这也是我们入门的基础。

概念

TF-IDF是指词频-逆文档频率。针对词语重要性的一种加权统计方式。全称:Term Frequency-Inverse Document Frequency。

TF是词频的意思,IDF是逆文档频率的意思,大体思路是某段文本中,反复出现的词权重高,在全部文本片段中都出现的词权重低。计算出TF和IDF两个值后(数学推导公式请自行查阅),两者相乘,就得到了词的权重,就可以按照权重值来筛选出关键词了。

场合

常用在信息检索、文本挖掘等技术中,作为加权因子。

TF-IDF的核心思想为词条的重要性随着该词条在当前文档中出现的次数成正比增加,但同时会随着它在语料库(所有文档)中出现的频率成反比下降。

公式

TF-IDF = TF(词频) * IDF(逆文档频率)

含义解释:

TF:词频统计,对文章中词语出现的频率进行计数统计

TF = (当前的文档单词出现的次数)/(当前的文档中包含的单词总数)

IDF:逆文档频率,指语料库中文档总数与语料库中包含该词的文档数,二者比值的对数。

IDF = log((语料库中文档总数)/(语料库中包含该词的文档数+1))

例子

昨夜星辰昨夜风

我们一起学习自然语言处理

昨夜下了一场大雨

星期二是晴天

计算第一个文档"昨夜"的TF-IDF值?

TF(昨夜) = 2/4

IDF(昨夜) = log(4/(2+1))

TF-IDF = TF * IDF = 1/2*log(4/3)


计算机语言:Java、JavaScript、PHP、Python、C#、Android、Objective-C、Go语言、c/C++、NodeJS、Swift、R语言。

       出血位识别
       河道漂浮物识别
       包裹移动识别
       人体属性识别
       交通违法识别
       面相识别
       人脸聚类
       布匹瑕疵识别
       照片合规检测
       热点分布
       眼睛瞳孔定位
       人脸五官定位
       葡萄病虫害识别
       安全通道异常检测
       护目镜识别