AI 聊天机器人 ChatGPT 推出近 1 年,正在学习以新的方式理解你的提问,未来不只透过文字提示,甚至可以语音输入和图片上传 2 种新方式来提供提示。
ChatGPT 风靡全球,能以一问一答的方式激发人们创意,帮助提升工作生产力,现在 OpenAI 进一步拓展使用 ChatGPT 的新方式,不仅可以透过文字方块输入提示对这个聊天机器人发问,还能透过语音输入或图片上传的方式提供提示。新功能将在未来两周内优先提供付费使用的 ChatGPT Plus、ChatGPT Enterprise 用户,其他用户很快也能获得它。
首先在 ChatGPT 语音输入方面对大多数用户应不陌生,你只需要点击按键并说出问题即可,ChatGPT 帮助你将语音转成文字,接着让大型语言模型进行运算、获得答案,最後又将文字转成语音,ChatGPT 会把答案朗诵出来。这与 Siri、Google 助理(Google Assistant)、Alexa 对话的方式一致,只是对象变成了 ChatGPT,受益於 OpenAI 开发的大型语言模型,语音回答的内容可望更加精准、丰富。
OpenAI 拥有出色的 Whisper 模型可以完成大量语音转成文字的工作,但该公司正在推出一种新的文字转语音模型,据称能以几秒钟的语音样本和文字内容产生人声,於是你可以从 5 种预设选项选出 1 种 ChatGPT 的答覆语音。
然而 OpenAI 似乎认为新模型的潜力不只如此,正与 Spotify 展开合作,将平台的 Podcast 节目内容翻译成其他语言,同时保留原本的音讯。
合成语音能有许多有趣用途,OpenAI 的新模型只需要几秒钟音讯就能产生合成语音。与此同时,OpenAI 更承认这将带来许多问题与风险,比方说不法分子冒充公众人物进行诈骗。OpenAI 则表示,基於这种原因,新模型无法广泛开放,对於特定用途与合作夥伴,将受到更多限制。
▲ OpenAI 让 ChatGPT 接受图片上传(上)、语音输入(下)的提示方式。
至於在 ChatGPT 上传图片的作用有点像 Google 智慧镜头(Google Lens),当你拍下任何感兴趣的照片上传给 ChatGPT,它会尝试弄清楚你所问的问题并做出回应。你也可以使用绘图工具帮助你明确查询,或者进一步输入关键问题来搭配图片,与 ChatGPT 一问一答、一来一往的特性彻底发挥作用。
但 OpenAI 也表示,基於准确性和隐私因素,该公司故意限制 ChatGPT 分析并直接发表陈述个人的能力,所以要 ChatGPT 看图说出「他是谁」的情况恐怕还看不到。
虽然透过语音输入或图片上传新方式,来为 ChatGPT 提供提示仍有限制,但 ChatGPT 背後有 GPT-3.5 甚至是强大的 GPT-4 模型支持,相较於常见的语音助理,ChatGPT 的答覆可望更精准、内容更丰富。
- You can now prompt ChatGPT with pictures and voice commands
- OpenAI gives ChatGPT a voice for verbal conversations
- ChatGPT will soon accept speech and images in its prompts, and be able to talk back to you
(首图来源:Unsplash)