2020-07-15 12:54:14

百香果nlp(nlp.100xg.cn):欢迎提交人工智能(AI)、自然语言处理(NLP)、大数据(big data)、机器学习(ML)、数据挖掘(DM)、知识图谱、智能硬件、工业互联网、工业机器人、云计算、5G网络、物联网、边缘计算(MEC)、机器人流程自动化(RPA)、前沿科技相关的公司、术语、API接口、项目、产品领域词条。快速提交,并将在这里展现。

文本分类是利用计算机对文本内容按照一定的标准进行分类,不同企业对于分类的标准不尽相同。

介绍

文本分类是指在给定的分类体系下,根据文语义元是统计语义方法中的原子,是不可分本的内容自动确定文本类别的过程.当前的文本割的最小单位,在文本分类中语义元是词;

文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为:

(1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理;

(2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销;

(3) 统计:词频统计,项(单词、概念)与分类的相关概率;

(4) 特征抽取:从文档中抽取出反映文档主题的特征;

(5) 分类器:分类器的训练;

(6) 评价:分类器的测试结果分析。

文本分类是一个不难理解的概念,即通过计算机对输入文本进行分类,例如判断“你真是个帅哥啊”这句话是褒义还是贬义。文本分类的应用场景很多,例如情感分类、机器人中的意图识别等。

听上去,分类问题似乎是个不难解决的问题,实际上文本分类有它的难度。当类别非常多或者类别与类别之间差异很小时,文本分类就开始变得困难;再者,有时需要考虑额外特征才能分类正确,例如常常需要根据说话者语气,才能判断“你真是个帅哥啊”这句话是讽刺还是真心的赞美。

分类

文本分类是对文本按照一定的分类体系或标准进行自动分类标记。目前支持对给定文本自动判断是否是广告。文本分类是一个比较大的概念,具体到应用,其中包括了情感识别、敏感识别等,具体到实现方式,包括二类分类、多类别分类、多标签分类等。就是为了把一组文本按照指定要求利用机器进行区分。具体到实现算法而言,不胜枚举。Spark Mllib中包含了大量的分类算法,可以进行实践,这也是入门的一种比较快速的方式,先会后懂然后深入。

应用

目前,对大量的文本进行自动分类处理已然成为信息检索、自然语言处理、数据库、人工智能等领域的热点;文本分类技术已成为一项具有较大实用价值的关键技术,主要体现在以下领域:信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤等等。

历史

早期有一些基于传统机器学习的文本分类,例如基于某种词语特征的的贝叶斯模型,SVM分类器等。

随着深度学习的发展,LSTM+softmax/CNN+softmax模型变成了一种非常流行的文本分类架构,基于此Fasttext、textCNN等便捷高效的开源文本分类工具也开始流行。此外,结合Attention等技巧与概念能够一定程度的提高模型的效果。

文本分类还有另外一种模式,即通过将文本向量化,再通过聚类获得类别,NLTK等开源NLP工具都有便捷的Doc2vec API。如果觉得效果不好,可以试试BERT的【CLS】向量。此外,还可以增加TF-IDF模块,构建更有表达能力的DocVec。



计算机语言:Java、JavaScript、PHP、Python、C#、Android、Objective-C、Go语言、c/C++、NodeJS、Swift、R语言。

       私有云
       海外云
       专有云
       犀牛智造(迅犀阿里巴巴新制造商家平台)
       智能专利代理事务所管理系统
       企业专利数据库
       专利数据库检索平台
       左医科技
       智能医疗问答系统
       智能用药管家
       智能问药
       智能预问诊
       智能导诊
       智能医生培训
       智能辅助问诊