2020-04-02 09:09:12

文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘(或者文本数据挖掘):包括文本聚类、文本分类、信息抽取、文本摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。

介绍

文本挖掘是基于文本数据,关注从大型自然语言文本中提取相关信息,并搜寻有意义的关系、语法关系以及提取实体或各项之间的语义关联。它也被定义为自动或半自动的文本处理。相关的算法包括文本聚类、文本分类、自然语言处理和网络挖掘。

文本挖掘的特征之一是数字与文本混合,或者用其他的观点来说,就是源数据集中包含了混合数据类型。文本通常是非结构化文件的集合,这将被预处理并变换成数值或者结构化的表示。在变换之后,大部分的数据挖掘算法都可以应用,并具有不错的效果。

准备步骤

文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。

目前主流的技术都是基于统计机器学习的。

文本挖掘是基于文本信息的信息挖掘的一个分支。文本挖掘的准备包括三个步骤:

1、文本收集

2、文本分析

3、特征剪枝

目前,几种文本挖掘技术的研究和应用最为频繁:

1.文档聚类

2.文档分类

3.抽象提取

自然语言处理是计算机科学和人工智能领域的一个重要方向。研究了利用自然语言进行人与计算机的有效交流的理论和方法。

挖掘过程

文本挖掘的过程描述如下:

第一步准备文本语料库,包括报告、信函等。

第二步基于文本语料库建立一个半结构化的文本数据库。

第三步建立一个词语文档矩阵,包含词语的频率。

第四步进行进一步的分析,比如文本分析、语义分析、信息检索和信息总结。

NLP任务

文本挖掘最基本的应用是文本(文档)的分类、聚类与相似度;信息检索与信息抽取,这两个任务相比大家都很熟悉;同时,文本挖掘子啊文本摘要生成、自动问答等任务中也有所应用,而这些任务也是 NLP 的主要任务。

可见,文本挖掘虽然和 NLP、知识图谱等属于不同的研究方向,但是在技术应用中,很多借鉴与融合之处。文本挖掘涉及很多自然语言处理的模块,同时它也应用于 NLP 领域中多个任务中,利用自然语言处理技术,自动化处理海量文本数据,提升文字处理效率与挖掘深度。


百香果nlp(nlp.100xg.cn):欢迎提交人工智能(AI)、自然语言处理(NLP)、大数据(big data)、机器学习(ML)、数据挖掘(DM)、知识图谱、智能硬件、工业互联网、工业机器人、云计算、5G网络、物联网、边缘计算(MEC)、机器人流程自动化(RPA)、前沿科技相关的公司、术语、API接口、项目、生成器、解决方案、开放平台产品、ai算法、ai模型、源码、sdk\模块、软件系统、在线/离线工具等领域词条。快速提交,并将在这里展现。

计算机语言:Java、JavaScript、PHP、Python、C#、Android、Objective-C、Go语言、c/C++、NodeJS、Swift、R语言。

       元宇宙更适合的载体是vr眼镜和vr头盔吗
       电脑手机是元宇宙的载体吗
       有哪些因素会制约元宇宙的落地
       元宇宙内容生产会采用UGC模式吗
       短期内元宇宙会落地吗