Testin云测：解析OpenAI新品GPT-4o的颠覆与局限

5月14日，OpenAI发布新产品，GPT-4o旗舰模型。OpenAI在ChatGPT中引入GPT-4o并免费提供更多功能。

GPT-4o的“o”代表“omni”，意为全能，与现有模型相比，它在视觉和音频理解方面尤其出色。GPT-4o可以在音频、视觉和文本中进行实时推理，接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像的任何组合进行输出。它可以最短在232毫秒内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间相似。

在GPT-4o之前，用户可以使用Voice Mode(由三个独立模型组成)与ChatGPT通话，但平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。原理是Voice Mode利用一个简单模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将文本转换回音频。

但这个过程会丢失大量信息，例如GPT-4不能直接观察音调、多个说话者或背景噪音，也不能输出笑声、歌声或情感表达。利用GPT-4o，OpenAI训练了一个跨文本、视觉和音频的端到端新模型，这意味着所有输入和输出都由同一个神经网络处理，这是OpenAI第一个结合所有这些模式的模型，OpenAI仍在探索模型的功能及其局限性。

从性能来看，OpenAI表示，在传统基准测试中，GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能，同时在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的性能与GPT-4 Turbo相当，在非英文文本上有显著改善。

通过过滤训练数据和训练后改进模型行为等技术，GPT-4o在设计中内置了跨模式的安全性，并创建了新的安全系统，为语音输出提供护栏。GPT-4o还与来自社会心理学、偏见和公平、错误信息等领域的70多名外部专家开展广泛的外部红队合作，以识别新增加的模式引入或放大的风险，提高与GPT-4o互动的安全性。

AI的发展速度正不断超出人们的预期，新的颠覆性科技与新的投资机会，都在应运而生。能否抓住AI带来的生产力突破，决定了企业能否有更高的上限和更广阔的未来。

Testin云测就是这样一家以人工智能技术驱动的企业服务平台，已经为全球超过百万的企业及开发者提供云测试服务、AI训练数据服务、安全服务。在保障应用、软件、系统等产品质量的测试环节，Testin 云测将云模式与AI人工智能的优势融为一体，通过云服务和智能化，以AI+RPA的测试能力部分或全部取代人工测试为主要发展趋势。

同时，在人工智能数据服务领域，Testin云测通过数据采集、数据清洗、数据标注等方式为企业业务引入数据治理，用专业领先的一站式数据服务充分满足AI客户的需求，利用自身在技术、服务和标准化方面的特色优势引领行业的发展趋势。

AI带来的颠覆性变革正在持续进行中，所有行业都将或早或晚地受其影响。云计算、大数据、人工智能、物联网等新兴技术让企业未来充满机遇和挑战。面对这样一场影响深远的变革，选择一个优秀的企业服务伙伴无疑是顺应时代之举，Testin云测不仅具备深刻的洞察力，也在服务、产品、安全等全方位专业领域的能力过硬，是企业服务领域的佼佼者。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）