阿里云 M6 是一个超大规模的中文预训练模型,属于跨自然语言、图像的
多模态 AI 模型,基于机器学习 PAI 构建。它是中文社区最大的
跨模态预训练模型,模型参数达到十万亿以上,拥有强大的多模态表征能力。该模型通过将不同模态的信息经过统一加工处理,沉淀成知识表征,进而为各个行业场景提供语言理解、图像处理、知识表征等智能服务。
- 多模态表征能力:能够处理自然语言和图像等不同模态的信息,将其统一加工处理,沉淀为知识表征,为各行业提供更全面的智能服务。
- 推动 AI 普惠化:以预训练模型的形式输出泛化能力,下游只需提供场景化数据进行优化微调,就能快速产出符合行业特点的精准模型,降低了 AI 使用门槛,推动 AI 在各行各业的落地和普及。
- 高精度与低门槛:具备高精度的处理能力,同时降低了使用门槛,使得更多企业和开发者能够利用其能力进行创新。
- 强大的图像生成与文本转换能力:在服装设计方面,能根据用户输入的款式要求,如 “翻领 polo 简约开衫上衣”,快速完成服装的款式设计并生成白底图;还能捕捉图片中的主要特征并转换成文本表述,如提取商品主图中的商品特点信息,展开扩写为一段流畅自然的商品推荐理由。
- 应用场景
- 电商领域:包括推荐理由文案创作,依据图像生成推荐理由,支持卖点标签增强文案可控性,少量样本即可得到可用结果;图文商品检索,基于多模态的商品表征提取,支持有监督(行为日志)、无监督训练模式,集成最新对比学习的研究成果。
- 智能制造:可利用其多模态表征能力,优化生产流程、进行质量检测等。
- 金融:辅助进行风险评估、市场分析等。
- 案例
- 每平每屋:M6 基于自身的多模态特征提取能力和模型中存储的丰富电商领域知识,为淘系的每平每屋业务提供了优质的家装类商品 embedding 表示,更好地理解商品的风格场景等维度信息。在引入 M6 产出内容封面 embedding 后,线上精排场景取得了 pctcvr2.6% 的提升。
- 斑马智行:斑马智行算法团队使用 M6 的表征学习能力帮助推进语视对话模型在自动驾驶场景实现应用。此模型可以帮助智驾系统理解用户的语言指令,识别出指令中指代的视觉目标,自动驾驶系统根据识别结果做出行为。M6 能力加持下,语视对话模型在评测上实现 5% 以上的绝对值提升,将有效优化自动驾驶体验。
- 用户评测:从合作案例的效果来看,M6 在不同行业的应用都取得了显著的成效,得到了合作企业的认可,能够切实为企业带来业务提升和效率优化。
与其他类似的预训练模型相比,阿里云 M6 的优势在于其超大规模的参数(十万亿以上)以及强大的多模态表征能力,能够同时处理语言和图像信息。在推动 AI 普惠化方面,其低门槛的使用方式也具有一定竞争力。不过,其他竞品可能在某些特定领域有更深入的研究和优化,M6 需要不断提升自身在细分领域的表现。