openai为chatgpt引入了创新的更新,使用户能够通过语音命令和图像与ai机器人进行交互。这些功能最初可供 chatgpt plus 和企业用户使用,不久将可供更广泛的公众使用。用户现在可以与 chatgpt 进行语音对话,并利用图像接收信息,这标志着朝着更直观的用户界面迈出了重要的一步。
“新功能将在未来两周内向那些为chatgpt付费的人推出,其他人很快就会得到它,”openai表示。
语音交互和合成语音
语音交互功能允许用户与chatgpt无缝通信,类似于与amazon alexa或google assistant进行交互。ai机器人利用openai的whisper模型进行语音到文本的转换,并利用新开发的文本到语音模型来生成类似人类的音频响应。用户可以选择与专业配音演员合作创建的五种不同的合成声音。
openai的产品经理joanne jang强调了创建用户可以整天听的声音的重要性。“在塑造声音时,首要标准是这是否是你可以整天听的声音,”她提到。
图像交互和实际应用
图像交互功能允许用户上传图像并查询其内容。此功能由多模态 gpt-3.5 和 gpt-4 提供支持,具有实际应用,例如协助膳食计划和解决数学问题。这项技术的一个值得注意的实现是它与be my eyes的合作,这是一个旨在通过描述上传图像的内容来帮助视障人士的应用程序。
应对风险和道德考虑
openai承认与这些进步相关的潜在风险,包括语音欺诈和隐私问题。该组织已采取措施减轻这些风险,例如限制 chatgpt 分析和直接陈述个人的能力。openai对该模型的局限性保持透明,并建议用户不要在没有适当验证的情况下将chatgpt用于高风险目的。
openai的科学家劳尔·普里(raul puri)强调了组合模型的复杂性以及解决潜在滥用所涉及的广泛头脑风暴。“你有计算机视觉的所有问题;你有大型语言模型的所有问题。语音欺诈是一个大问题,“普里解释说。
未经允许不得转载:凯发k8国际真人 » chatgpt增加了语音和图像输入,变成了成熟的语音助手