计算机视觉生成,可控视觉内容设计和生成,聚焦满足用户、场景需求的数字视觉内容制造,包括针对图像、视频及图形的增强、编辑、渲染、生成、评估等视觉内容设计与制作。用技术赋能和改革设计、广告及数娱行业。

目标:可控视觉内容设计和生成,让AI做设计,使数字内容制造变得高质、高效、普惠、低成本;

愿景:所想,即所见。

计算机视觉生成主要分成三个方向。第一,针对非结构化的图像,如图像。第二,针对结构化的图形。第三,针对序列化的视频。

设计行业现状

AI视觉生成较年轻。起初,基本都是通过人工方式完成。小到海报或毕业设计封面的设计这样的小需求,大到阿里巴巴中海量商家的投放渠道及效果这样的大型需求都与其相关。从业人员数量庞大,市场与广告、商家关系紧密,市场容量非常大。

从技术上说,近几年,大家常提到供给侧改革,以前的供给侧基本都是通过人或工具来形成图像、视频等,但这样有很大的局限性,包括:

l?  效率低成本高

l?  数据利用率低,比如去年双十一和今年双十一由于主题不同,需要全盘重做。

l?  无法在线化,从提出需求到得到结果无法做到实时。

l?  难以上下文相关,设计师不会结合用户的个性化需求,形成与上下文相关的结果。

而在消费端,对个性化、精准度、实时性有很高的需求。因此,在供给和需求之间还存在差距。在AI行业中,IN的多:识别、理解、搜索。OUT的少:生成、融合还限于学术圈,系统性落地工程、可商用的产品没有。

因此,“The best way to predict is to create.”。

使用场景

人工智能视觉生成引擎的使用场景大致可抽象成下图。以显式输入而言,用户可以输入标签需要的风格、色彩、构图等,或者输入一个例子,或者进行一些交互的输入。除显式输入之外还可以有隐式输入,比如人群信息、场景信息、上下文信息等。总的来说,输入可以是千变万化的,但通过规范化之后就会减少变化,使得生成过程可控,输出质量可控。

对视觉生成引擎来说,它要求输入是规范化的。但在输入前,可以加入各种交互方式,如自然语言处理,语音识别等,将其转化成规范化输入。最后输出结构化信息或可视成图。

       停用词过滤
       chunker
       字符编码识别
       文本解剖
       张量
       标量
       AI数据
       互联网金融
       在线交易
       线上线下