生成式人工智能的发展趋势与应用场景
2024年2月发布的文生视频模型Sora引起关注。这一技术的问世被认为是视频生成领域的重大突破。对比同样引起轰动的ChatGPT,二者在技术路线和产品定位上有所联系,又有所区别。一方面Sora结合了ChatGPT所采用的模型架构,能够结合数个静止画面生成连续的视频,也可以自动修补残缺的视频段。另一方面Sora和ChatGPT都有良好的自然语言理解能力,可以根据用户的描述生成与调整视频内容,也可以对用户提供的素材进行总结归纳和补充。Sora的问世是OpenI在模型架构、数据管理等方向积累创新的结果,其背后是GPT系列的技术转化和新技术创新的融合。ChatGPT侧重于对文本内容的理解和生成,用户可以与之进行对话问答,也可以指令其撰写文章、编写代码等,其基础功能主要由文字交互实现。最常见的应用场景主要是文本内容的处理,包括对文字的解读、重组、拓展、排序等。Sora则侧重于视频内容的创造,其核心功能是根据文本提示生成视频内容,在理解和模拟物理世界的前提下,构造出虚拟的世界并展现这个世界的交互规律。
文生视频模型都在多个方面表现出强大的能力,但其本身并不完美。类似的生成式模型仍然存在一些问题,如不能完全反映所有的物理规律,主要表现为一些违背生活常识和科学认识的情况仍然会发生。上述文生视频模型缺陷由来已久,并且在短期内难以得到很好的解决,在维持、扩大模型优势的同时克服这些缺陷将成为人工智能产业下一阶段的重点。
首先文生视频模型的首要缺陷是其巨量的算力资源消耗。相较于主流的大语言模型算力,图像参数要占用更多的算力资源。为了追求更好的模型性能,全球人工智能产业的算力需求还会进一步提高,算力匮乏的国家和地区将处于技术不利地位。
其次是模型幻觉现象依然严重。与文本生成模型类似,视频生成模型也受幻觉效应影响。训练数据在压缩等处理环节中失真、用户提示词过于模糊或者根据安全策略不能响应时,模型会被迫填补空缺内容。这种填补有可能使模型陷入幻觉认识,输出与事实不符或者用户未要求的内容。
(阅读全部图文内容,您需要先登录!)