2021-01-08 15:28:06

百香果nlp(nlp.100xg.cn):欢迎提交人工智能(AI)、自然语言处理(NLP)、大数据(big data)、机器学习(ML)、数据挖掘(DM)、知识图谱、智能硬件、工业互联网、工业机器人、云计算、5G网络、物联网、边缘计算(MEC)、机器人流程自动化(RPA)、前沿科技相关的公司、术语、API接口、项目、产品、ai算法、ai模型、软件、工具等领域词条。快速提交,并将在这里展现。

多模态融合是主要致力于不同模态间的模型与特征的整合,以获得更全面的特征,提高模型鲁棒性,并且保证模型在某些模态缺失时仍能有效工作。多模态融合(Multimodal Fusion )负责联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)。 

介绍

多模态融合是多模态研究中非常关键的研究点,它将抽取自不同模态的信息整合成一个稳定的多模态表征。多模态融合和表征有着明显的联系,如果一个过程是专注于使用某种架构来整合不同单模态的表征,那么就被归类于fusion类。而fusion方法又可以根据他们出现的不同位置而分为late和early fusion。因为早期和晚期融合会抑制模内或者模间的交互作用,所以现在的研究主要集中于intermediate的融合方法,让这些fusion操作可以放置于深度学习模型的多个层之中。

按照融合的层次,分为:

pixel level

feature level 

decision level

分别对应对原始数据进行融合、对抽象的特征进行融合和对决策结果进行融合。

常见的机器学习方法都可以应用于多模态融合,比较热门的研究方向:

视觉-音频识别(Visual-Audio Recognition):综合源自同一个实例的视频信息和音频信息,进行识别工作。

多模态情感分析(Multimodal sentiment analysis):综合利用多个模态的数据(图中的文字、面部表情、声音),通过互补,消除歧义和不确定性,得到更加准确的情感类型判断结果。

手机身份认证(Mobile Identity Authentication):综合利用手机的多传感器信息,认证手机使用者是否是注册用户。

多模态融合研究的难点主要包括如何判断每个模态的置信水平、如何判断模态间的相关性、如何对多模态的特征信息进行降维以及如何对非同步采集的多模态数据进行配准等。若想了解传统的机器学习方法在此领域的应用,推荐学习清华大学出版的《多源信息融合》(韩崇昭等著)一书。

融合方法

融合文本和图像的方法主要有三种:基于简单操作的,基于注意力的,基于张量的方法。

a) 简单操作融合办法

来自不同的模态的特征向量可以通过简单地操作来实现整合,比如拼接和加权求和。这样的简单操作使得参数之间的联系几乎没有,但是后续的网络层会自动对这种操作进行自适应。

l Concatenation拼接操作可以用来把低层的输入特征[1][2][3]或者高层的特征(通过预训练模型提取出来的特征)[3][4][5]之间相互结合起来。

l Weighted sum 对于权重为标量的加权求和方法,这种迭代的办法要求预训练模型产生的向量要有确定的维度,并且要按一定顺序排列并适合element-wise 加法[6]。为了满足这种要求可以使用全连接层来控制维度和对每一维度进行重新排序。

最近的一项研究[7]采用渐进探索的神经结构搜索[8][9][10]来为fusion找到合适的设置。根据要融合的层以及是使用连接还是加权和作为融合操作来配置每个融合功能。

b) 基于注意力机制的融合办法

很多的注意力机制已经被应用于融合操作了。注意力机制通常指的是一组“注意”模型在每个时间步动态生成的一组标量权重向量的加权和[11][12]。这组注意力的多个输出头可以动态产生求和时候要用到的权重,因此最终在拼接时候可以保存额外的权重信息。在将注意机制应用于图像时,对不同区域的图像特征向量进行不同的加权,得到一个最终整体的图像向量。





计算机语言:Java、JavaScript、PHP、Python、C#、Android、Objective-C、Go语言、c/C++、NodeJS、Swift、R语言。

       净零(Net zero)
       晶圆厂(Fabs)
       全自动驾驶BETA(FSD BETA)
       山寨币(Altcoin)
       游戏金融(GameFi)
       石股(Stonks)
       分布式自治组织(DAO)
       非同质化代币(NFT)
       社交音频
       元宇宙(Metaverse)
       织女模型Vega v1
       智源指数CUGE
       CPM-2
       数字人研究院
       深度语义表示问答模型