4月中旬,Meta首席执行官马克·扎克伯格宣布了新的基于人工智能的虚拟助手功能。一个月后,Meta获得了一项专利,该专利的重点是通过基于客户端流程和服务器端流程的混合架构为未来的Quest头显和智能眼镜添加数字助手。更具体地说,该专利涵盖了一种方法,包括在用户与助手xbot的会话期间,通过助手xbot向头戴式设备用户呈现建议,其中该建议与和助手xbot相关联的助手系统要执行的多个动作相关联。在会话期间,通过头戴式设备访问来自头戴式设备惯性测量单元(IMU)传感器的信号,通过设备上的头部手势检测模型仅基于来自IMU传感器的信号确定用户在对话会话期间执行的头部动作,以及由助手系统在头戴式设备上执行的多个动作中执行第一个动作,其中第一个动作是基于会话期间确定的头部手势选择的。
未来的Meta数字助手系统可能会通过基于客户端流程和服务器端流程的混合架构来协助用户。
在一些特定实施例中,助手系统可使佩戴头戴式设备(例如Quest VR头显或智能眼镜)的用户能够使用头部动作做出响应。助手系统可通过基地客户端头部动作检测模型检测头部手势并将检测到的头部手势与其预定义指示相关联来理解这种响应。头部动作检测模型可仅使用来自头戴式设备的惯性测量单元(IMU)传感器的输入来检测头部动作。客户端头部动作检测模型能够以低延迟和低功耗推断用户头部动作(例如点头、左右摇晃等)。
在另一些特定实施例中,头部动作检测可由其他系统而非助手系统执行。举例来说(但不限于此),客户端系统(如头戴式设备)可以单独检测头部动作,并将检测到的头部动作提供给助手系统或在客户端系统上执行的另一个应用。
作为一个示例(但不限于此),虚拟现实(VR)系统可在用户佩戴VR头显时检测头部动作,并将检测到的头部动作反馈给助手系统或在VR头显上执行的另一个应用。作为另一个示例(但不限于次),增强现实(AR)系统可在用户佩戴AR设备时检测头部动作,并将检测到的头部动作反馈给助手系统或在AR设备上运行的另一个应用。
Meta专利图12展示了人工神经网络(“ANN”)#1200;图2展示了助手系统的示例架构。在特定实施例中,助手系统可协助用户获取信息或服务。助手系统140可使用户能够通过各种模态(例如,音频、语音、文本、视觉、图像、视频、手势、运动、活动、位置、方向)的用户输入在有状态和多轮对话中与助手系统交互,以接收来自助手系统的帮助。
作为示例(但不限于此),用户输入可包括基于用户语音的音频输入(例如,口头命令),该音频输入可由客户端系统上的系统音频API处理。系统音频API可执行包括回声消除、噪音消除、波束形成、自用户语音激活、说话者识别、语音活动检测(VAD)和/或任何其他合适的声学技术在内的技术,以便生成助手系统易于处理的音频数据。在特定实施例中,助手系统140可以支持单模态输入(例如,仅语音输入)、多模态输入(例如,语音输入和文本输入)、混合/多模态输入或其任何组合。
专利图7展示了基于头部动作检测的用户辅助示例序列图;图8C-8E展示了针对上下点头而采取响应行动的示例场景。
专利图10A-10D展示了响应左右横向摇头而采取行动的另一个示例场景。图10A展示了佩戴VR头显#130a的用户#1010正在玩VR游戏。用户的手机#130b可能在桌子上。用户的手机可能是VR头显的配套设备。图10B展示了助手系统#140通过VR头显告诉用户:“你的兄弟正在给你打电话,你要接听吗?#1020”。图10C展示了用户摇头。图10D展示了助手系统检测到的摇头动作。然后,助手系统可以确定用户不想在玩游戏时接听电话。因此,助手系统可以在手机上执行拒绝接听的动作。助手系统还可以进一步通过VR头显告诉用户“好的,将挂断电话。#1030”。
更多详情,请查看Meta于2024年5月14日公布的已授权专利11983329。
【文章来源:87870,转载须注明来源及链接,否则将追究其法律责任!】