百香果nlp(nlp.100xg.cn):欢迎提交人工智能(AI)、自然语言处理(NLP )、大数据、智能硬件、云计算、5G、物联网、前沿科技相关的公司、术语、项目、产品领域词条。快速提交,并将在这里展现。

分词 (Word Segmentation/Tokenization, ws): 在对文本进行处理的时候,会对文本进行一个分词的处理。分词是将文章、句子或文本按词组分开。该步骤只针对中文,西方字幕语言已经用空格做好了分词。

介绍

分词(Segment):中英文都存在分词的问题,不过相对来说,英文单词与单词之间本来就有空格进行分割,所以处理起来相对方便。但是中文书写是没有分隔符的,所以分词的问题就比较突出。分词常用的手段可以是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。另外就是当下主流的统计机器学习的办法,利用HMM/CRF这一类的模型解决。

       机器写文章
       Dreamwriter写稿机器人
       人工智能写作
       SmartNovel
       写作机器人
       机器辅助文学评选
       机器辅助文学创作
       融媒体
       机器协助文学创作
       新媒体
       数字营销
       智能文本营销方案
       智能文本分析
       定向文本采集
       3D人工仿生眼