
昨晚注定是不平凡的一夜,北京时间5月14日凌晨,OpenAI可谓改变历史,让人机交互开启了变革性的新篇章!

昨晚在OpenAI的首次“春季新品发布会”上,OpenAI首席技术官Mira Murati为大家重磅发布了名为“GPT-4 Omni (GPT-4o) ”的新旗舰生成式人工智能模型,并表示将在未来几周内“迭代式”地在公司产品中推出。首席技术官Mira Murati和OpenAI的员工展示了这一最新的模型,能够以一种令人信服地像人类一样说话的方式,与友好的AI聊天机器人进行实时口语对话。距离ChatGPT问世才过去了一年半,OpenAI就实现了更多新的可能,而且完全免费,人人可用!


首席技术官Mira Murati作为发布会的主持人,主要围绕三个点展开。
1. OpenAI做产品将让更多的人能够使用,每个人都能无时无地免费使用ChatGPT。
2. OpenAI因此发布了桌面版本的ChatGPT和更新后的UI,帮助大家更简单更自然地使用。OpenAI首席技术官Mira Murati表示:“我们希望交互体验变得更自然、更简单、让大家完全不用关注用户界面,而是只聚焦于和GPT的合作”。
3. 继ChatGPT-4之后,本次发布会正式推出ChatGPT-4o这一新版本模型,最大的亮点是GPT-4o能够极为人工智能化地以一种极为自然的交互方式服务大家,包括免费用户也能体验到。Mira Murati说:“A very important part of our mission is to be able to make our advanced AI tools available to everyone for free。”
GPT-4o到底是怎样的存在?
GPT-4o提供GPT-4一样的人工智能,但是速度上会更快!GPT-4o具有文本、语音、图像这三种模式的理解力,反应速度极快,且更通人性。在GPT-4o中,用户能够输入文本、音频和图像的任意组合,然后GPT-4o将为用户实时生成文本、音频和图像的任意组合输出,实现真正意义上的人机交互!
接下来,OpenAI的演示者用iPhone为大家演示了GPT-4o的几种主要能力。
1. 可以实现实时语音对话
当Mark对着手机说“这是我第一次来直播的发布会,有点紧张”时,ChatGPT回应他“你可以深呼吸一下”。Mark说“好的我深呼吸”,然后ChatGPT立即说“不行,你喘的也太猛了”。不难看出,GPT-4o的模型反应之快,并且能充分的感知理解人类情感,并给予人类式的情感回应。

2. 代码能力
演示者打开桌面版的ChatGPT用语音和它进行交流,让GPT-4o解释一下代码是做什么的,用一句话回应一个温度曲线图的相关问题,它都对答如流。


3. 实时的视频理解能力
演示者纸上写下了一组数学公式,并拍下了全程视频发给GPT-4o,问它我刚才写了什么,GPT-4o带着非常人类情绪式的语气描述了演示者书写的内容。
演示者又向GPT-4o展示了他的实时面部表情,让GPT-4o描述一下自己现在是什么情绪心情,就像和真人对话一般自如,GPT-4o已经能做到实时视频理解了。
从现场发布会上,我们就能感受到GPT-4o的语音带有充满情感的语调,有时表现出兴奋,有时笑着说话。此外,它还能识别用户语音中的情感和语气。OpenAI演示者展示了与AI聊天机器人的对话,几乎没有延迟,而且即使在被打断时,聊天机器人也能迅速转换话题。
GPT-4o中的o,指的是Omnimodel全能模型,OpenAI在这个新模型中集成了所有模态,极大程度地提高了这个新模型的实用性。GPT-4o在非英语文本上的能力比GPT-4大大提升,同时API的速度更快,成本降低了50%。

GPT-4o在视觉和音频的理解能力上也比GPT-4更胜一筹。GPT-4o最快可以实现在短短232毫秒内对音频的输入做出回应,与人类很像。GPT-4o集成了文本、视觉、音频,意味着输入和输出都由同一神经网络处理,使得GPT4o更能贴近人类的说话和表达,也意味着向更自然的人-机器-机器交互迈出历史性的一步。

ChatGPT-4o的问世,让万千用户从今日起,不论是付费还是免费,都能完全体验更自然更富有情感地人机交互!唯一的不同只是付费用户的容量限制仍将是免费用户的5倍。说了这么多,IT君是早已按捺不住了,迫不及待要去感受一下最新版的ChatGPT了!
澳洲IT圈求职,扫上方二维码
即可加入匠人学院求职群!
