百香果nlp(nlp.100xg.cn):欢迎提交人工智能术语、及人工智能公司、NLP公司、大数据公司词条。相比百科类收录更容易通过,并将在这里展现;

加入百香果社群(www.100xg.cn):自然语言处理(NLP ) 、 人工智能(AI)。还可以 申请 自己公司、项目、产品领域社群。

文本分类是对文本按照一定的分类体系或标准进行自动分类标记。目前支持对给定文本自动判断是否是广告。文本分类是一个比较大的概念,具体到应用,其中包括了情感识别、敏感识别等,具体到实现方式,包括二类分类、多类别分类、多标签分类等。就是为了把一组文本按照指定要求利用机器进行区分。具体到实现算法而言,不胜枚举。Spark Mllib中包含了大量的分类算法,可以进行实践,这也是入门的一种比较快速的方式,先会后懂然后深入。

介绍

文本分类是指在给定的分类体系下,根据文语义元是统计语义方法中的原子,是不可分本的内容自动确定文本类别的过程.当前的文本割的最小单位,在文本分类中语义元是词;

文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为:

(1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理;

(2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销;

(3) 统计:词频统计,项(单词、概念)与分类的相关概率;

(4) 特征抽取:从文档中抽取出反映文档主题的特征;

(5) 分类器:分类器的训练;

(6) 评价:分类器的测试结果分析。

应用

目前,对大量的文本进行自动分类处理已然成为信息检索、自然语言处理、数据库、人工智能等领域的热点;文本分类技术已成为一项具有较大实用价值的关键技术,主要体现在以下领域:信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤等等。


       芯仑科技
       芯仑光电
       ThinkForce
       深动科技
       小马智行科技
       黑芝麻智能科技
       合刃科技
       全息全频机器视觉系统
       爱笔智能
       Remebot医疗机器人