开口问也可以！OpenAI 让 ChatGPT 接受语音输入、图片上传提示

AI 聊天机器人 ChatGPT 推出近 1 年，正在学习以新的方式理解你的提问，未来不只透过文字提示，甚至可以语音输入和图片上传 2 种新方式来提供提示。

ChatGPT 风靡全球，能以一问一答的方式激发人们创意，帮助提升工作生产力，现在 OpenAI 进一步拓展使用 ChatGPT 的新方式，不仅可以透过文字方块输入提示对这个聊天机器人发问，还能透过语音输入或图片上传的方式提供提示。新功能将在未来两周内优先提供付费使用的 ChatGPT Plus、ChatGPT Enterprise 用户，其他用户很快也能获得它。

首先在 ChatGPT 语音输入方面对大多数用户应不陌生，你只需要点击按键并说出问题即可，ChatGPT 帮助你将语音转成文字，接着让大型语言模型进行运算、获得答案，最後又将文字转成语音，ChatGPT 会把答案朗诵出来。这与 Siri、Google 助理（Google Assistant）、Alexa 对话的方式一致，只是对象变成了 ChatGPT，受益於 OpenAI 开发的大型语言模型，语音回答的内容可望更加精准、丰富。

OpenAI 拥有出色的 Whisper 模型可以完成大量语音转成文字的工作，但该公司正在推出一种新的文字转语音模型，据称能以几秒钟的语音样本和文字内容产生人声，於是你可以从 5 种预设选项选出 1 种 ChatGPT 的答覆语音。

然而 OpenAI 似乎认为新模型的潜力不只如此，正与 Spotify 展开合作，将平台的 Podcast 节目内容翻译成其他语言，同时保留原本的音讯。

合成语音能有许多有趣用途，OpenAI 的新模型只需要几秒钟音讯就能产生合成语音。与此同时，OpenAI 更承认这将带来许多问题与风险，比方说不法分子冒充公众人物进行诈骗。OpenAI 则表示，基於这种原因，新模型无法广泛开放，对於特定用途与合作夥伴，将受到更多限制。

▲ OpenAI 让 ChatGPT 接受图片上传（上）、语音输入（下）的提示方式。

至於在 ChatGPT 上传图片的作用有点像 Google 智慧镜头（Google Lens），当你拍下任何感兴趣的照片上传给 ChatGPT，它会尝试弄清楚你所问的问题并做出回应。你也可以使用绘图工具帮助你明确查询，或者进一步输入关键问题来搭配图片，与 ChatGPT 一问一答、一来一往的特性彻底发挥作用。

但 OpenAI 也表示，基於准确性和隐私因素，该公司故意限制 ChatGPT 分析并直接发表陈述个人的能力，所以要 ChatGPT 看图说出「他是谁」的情况恐怕还看不到。

虽然透过语音输入或图片上传新方式，来为 ChatGPT 提供提示仍有限制，但 ChatGPT 背後有 GPT-3.5 甚至是强大的 GPT-4 模型支持，相较於常见的语音助理，ChatGPT 的答覆可望更精准、内容更丰富。

You can now prompt ChatGPT with pictures and voice commands
OpenAI gives ChatGPT a voice for verbal conversations
ChatGPT will soon accept speech and images in its prompts, and be able to talk back to you

（首图来源：Unsplash）

开口问也可以！OpenAI 让 ChatGPT 接受语音输入、图片上传提示

红海加速器怎么样

AI应用

WhatsApp 推出 4 大新功能　相机特效、自拍贴图、贴图包分享

【全年只有一次】圣诞限定 PDF 工具王超值优惠登场

Tim Cook 谈 AI 功能不收费的背後原因

【万圣节最後召集】全城最强 AI PDF 工具限时特价

新一代 M4 Mac 即将列阵　苹果或举行线上发布会

Welcome Back!

Retrieve your password

开口问也可以！OpenAI 让 ChatGPT 接受语音输入、图片上传提示

红海加速器怎么样

红海加速器怎么样

AI应用

WhatsApp 推出 4 大新功能 相机特效、自拍贴图、贴图包分享

【全年只有一次】圣诞限定 PDF 工具王超值优惠登场

Tim Cook 谈 AI 功能不收费的背後原因

【万圣节最後召集】全城最强 AI PDF 工具限时特价

新一代 M4 Mac 即将列阵 苹果或举行线上发布会

Welcome Back!

Retrieve your password

WhatsApp 推出 4 大新功能　相机特效、自拍贴图、贴图包分享

新一代 M4 Mac 即将列阵　苹果或举行线上发布会