谷歌与三星在发布会上展示了Gemini语音助手的新功能——任务自动化。该功能允许用户通过自然语言指令,让Gemini在特定的第三方应用程序中自动执行操作,例如预订Uber网约车,或通过Uber Eats、DoorDash、Grubhub等平台订购外卖。未来预计将有更多应用获得支持。
该功能目前处于早期预览阶段,初期将在特定市场推出,并首先搭载于新发布的智能手机上,后续也将通过软件更新提供给其他系列设备。其运作方式并非简单的预设指令映射。Gemini会利用其推理能力制定计划,像用户一样查看屏幕并导航操作。即使应用界面发生变化,它也能尝试适应并完成任务。
在实际演示中,用户只需对Gemini说出“帮我叫一辆去机场的Uber”等指令,Gemini便会在一个虚拟窗口中打开Uber应用并执行操作。用户可以通过实时通知监控进程,并在需要时介入提供更多信息(例如选择具体机场)。最终,用户仍需在应用内确认车型、车费等选项并完成预订。
对于更复杂的任务,例如从群聊对话中整理披萨订单并在Grubhub上下单,Gemini能够理解屏幕上下文信息,自动将商品加入购物车,用户仅需最终核对并支付。如果遇到问题(如商品缺货),Gemini会尝试寻找替代方案并询问用户。
谷歌方面表示,这是首次在Android应用上实现此类功能,并视其为移动智能新时代的开端。考虑到隐私问题,首批支持任务自动化的应用未包含高度敏感的类型。该功能代表了利用大型语言模型理解自然语言并操作应用界面的新方向。



