1.2.2 大模型的基本能力

大模型在不同的任务领域中展现出了非凡的能力。

1.自然语言理解与生成

大语言模型最显著的能力在于自然语言的理解与生成。以GPT、BERT为代表的大语言模型,在文本生成、语义理解、问答系统、机器翻译等方面取得了突破性进展。它们可以理解和生成高质量的文本内容,并且能够基于上下文进行复杂推理。

(1)自然语言理解

大语言模型能够通过深度学习技术对输入的文本进行深入分析和理解,捕捉其中复杂的语义信息、情感色彩、逻辑结构及潜在含义。它们在处理如问答、文档摘要、语义解释、情感分析、实体识别、关系抽取等任务时表现出优秀的性能。例如,当要求大模型对一段话进行翻译时,效果相当不错。

用户提问:

大模型的回复:

(2)自然语言生成

基于海量训练数据,大语言模型可以自动生成连贯、流畅且具有一定创造性的文本内容,可以完成文章写作、故事创作、对话模拟、代码编写以及诗歌或歌词创作等任务。这些模型可以根据给定的提示词或上下文信息生成全新的文本段落,而且生成的内容往往具备高度的逻辑一致性与合理性。例如,当用户用自然语言要求生成一个算法时,大模型也能很好地完成任务。

用户提问:

大模型的回复如下。可以看到,大模型能够提升开发者的编程效率。

2.计算机视觉任务

视觉大模型是在计算机视觉领域具有大规模参数量和广泛应用场景的深度学习模型。这些模型通过处理大量图像数据,可以完成对图像内容的理解、识别、分割、生成等多种任务。例如,Segment Anything Model(SAM)是由Meta AI推出的开源的图像分割任务模型,它借助了自然语言处理任务中的提示词思路,通过给图像分割任务模型提供提示词来完成对任意目标的快速分割,如图1-2所示。

3.文生图

文生图是指根据用户输入的自然语言文本描述,自动生成与该描述内容相匹配的图像。例如,要求大模型画一个变形金刚,大模型能够生成不错的效果图,如图1-3所示。这一技术是AIGC(AI Generated Content,人工智能生成内容)领域的重要组成部分。文生图是大模型在跨模态领域中的重要应用方向,横跨文本和图片两种不同模态。

图1-2 SAM示例

图1-3 文生图示例

文生图的技术路线主要有生成对抗网络(GAN)、扩散模型(Diffusion Model)和变分自编码器(Variational Auto Encoder,VAE)。目前,扩散模型与Transformer架构相结合是文生图的主流路线。在百花齐放的文生图应用中,DALL·E2、Stable Diffusion、Midjourney等几款应用效果最好,也最受欢迎。

4.文生视频

文生视频是指根据用户提供的文本描述或脚本内容自动生成连续的视频片段,包括动态的画面、合理的场景切换以及连贯的动作等。这种技术结合了自然语言处理、计算机视觉、深度学习和生成模型等多种AI技术,在理解文本含义的基础上构建相应的视觉场景,并模拟真实的时空变化来生成视频内容。相较于文生图技术,文生视频更为复杂,因为它不仅要考虑静态图像生成,还要解决帧与帧之间的连续性和流畅性问题。

在文生视频应用方面,美国AI初创公司Pika labs起初仅有4名全职成员,在发布Pika 1.0后,7个月就成为估值2亿美元的文生视频公司。继发布的聊天机器人ChatGPT引领新一轮人工智能浪潮之后,OpenAI于2024年2月16日又发布了全新的生成式人工智能模型Sora,它能够通过文本指令创建长达60s的视频,其逼真的视觉效果让它在一夜之间火爆全球。Sora视频生成效果如图1-4所示,与另两个文生视频应用Runway、Pika相比,Sora的生成效果更逼真、细节更丰富。

图1-4 Sora与Runway、Pika效果对比

5.理解图片与视频

大模型在理解图片与视频方面的能力主要通过多模态预训练模型来实现。图片或视频理解是指根据用户输入的图片或者视频等非文本信息,输出对图片或者视频的文本描述。例如,对于如图1-5所示的都江堰风景照片,大模型就能够很好地理解。

图1-5 都江堰风景照片

用户提问:

大模型的回复如下。可以看到,大模型比较准确地描述了照片的信息,并说中了照片中是哪个景点。

大模型的回复:

不仅是风景图片,大模型对具有人物的图片也能理解得很到位。例如,对如图1-6所示的儿童旅游照片,大模型给出了详细且准确的描述。

图1-6 一张儿童旅游照片

大模型的回复:

由此可见,大模型的核心优势在于其对大量数据的学习能力和由此产生的广泛应用潜力,这使其成为人工智能领域极其重要的基础技术和研究热点。