chatgpt增加了语音和图像输入，变成了成熟的语音助手-凯发k8国际真人

chatgpt-voice-assistant-696x392.jpg.webp

openai为chatgpt引入了创新的更新，使用户能够通过语音命令和图像与ai机器人进行交互。这些功能最初可供 chatgpt plus 和企业用户使用，不久将可供更广泛的公众使用。用户现在可以与 chatgpt 进行语音对话，并利用图像接收信息，这标志着朝着更直观的用户界面迈出了重要的一步。

“新功能将在未来两周内向那些为chatgpt付费的人推出，其他人很快就会得到它，”openai表示。

语音交互和合成语音

语音交互功能允许用户与chatgpt无缝通信，类似于与amazon alexa或google assistant进行交互。ai机器人利用openai的whisper模型进行语音到文本的转换，并利用新开发的文本到语音模型来生成类似人类的音频响应。用户可以选择与专业配音演员合作创建的五种不同的合成声音。

openai的产品经理joanne jang强调了创建用户可以整天听的声音的重要性。“在塑造声音时，首要标准是这是否是你可以整天听的声音，”她提到。

图像交互和实际应用

图像交互功能允许用户上传图像并查询其内容。此功能由多模态 gpt-3.5 和 gpt-4 提供支持，具有实际应用，例如协助膳食计划和解决数学问题。这项技术的一个值得注意的实现是它与be my eyes的合作，这是一个旨在通过描述上传图像的内容来帮助视障人士的应用程序。

应对风险和道德考虑

openai承认与这些进步相关的潜在风险，包括语音欺诈和隐私问题。该组织已采取措施减轻这些风险，例如限制 chatgpt 分析和直接陈述个人的能力。openai对该模型的局限性保持透明，并建议用户不要在没有适当验证的情况下将chatgpt用于高风险目的。

openai的科学家劳尔·普里（raul puri）强调了组合模型的复杂性以及解决潜在滥用所涉及的广泛头脑风暴。“你有计算机视觉的所有问题;你有大型语言模型的所有问题。语音欺诈是一个大问题，“普里解释说。

未经允许不得转载：凯发k8国际真人 » chatgpt增加了语音和图像输入，变成了成熟的语音助手

chatgpt增加了语音和图像输入，变成了成熟的语音助手-凯发k8国际真人

语音交互和合成语音

图像交互和实际应用

应对风险和道德考虑

相关推荐

最新文章