一旦iOS 13上市,Siri将会有显著的改进,苹果公司将出现在一个关键的语音人工智能交易会上,并发表了一项研究,解释一项被称为“Overton”的首个机器学习(ML)技术的一些细节。
本周,苹果公司赞助了世界上最大的口语处理会议——Interspeech 2019。
作为大会工作的一部分,它已经提交了多篇研究论文,其不断壮大的机器学习团队的成员将在那里与与会者见面。
除此之外,苹果还将发表论文,内容包括通过语音检测表情/意图、改进语音识别、开发更精确的工具来理解语音细微差别、利用镜像来建立人类用户和语音助手之间的关系,以及利用技术来优化语音增强。
我们可能会在全新的Interspeech Youtube网站上了解到更多关于苹果公司的信息,尽管我们不知道是否会有苹果的视频出现在那里。
苹果公司的科学家们正在与更广泛的科学界进行接触,这并不令人意外。自2017年以来,该公司在自己的机器学习门户网站上发布了一些零星的机器学习论文和公告。
苹果公司声称,该公司与Overton公司合作,首次推出了一款类似的解决方案。该方案旨在让机器而不是人来管理大部分ML模型的个性化。
语音互动只是你问Siri问题的前奏。然后,机器学习模型必须尝试理解问题,将其置于情境中,并找出最准确的回答。提供高质量的回应实际上比看起来要困难。
当然,在一些质询中,Siri只会提供维基百科页面上的数据(不过,即使这样,它也可能会检查好几个这样的页面,选出最相关的回答)。但最终的目标必须是,Siri将成为解决复杂问题的有效工具——甚至可以预测这些问题。
接下来的这些步骤很难完成。
科学家们如何才能变得更加自信,相信Siri做出的反应是最准确的呢?
这就是苹果通过Overton解决的问题,Overton“将模型构建、部署和监视的生命周期自动化”。
就人类而言,这意味着机器本身会根据外部刺激修复和调整机器学习模型,使其更准确,并修复可能导致错误结论的逻辑缺陷。这个想法是,人类可以专注于机器学习模型的高端监管。
这(我认为)意味着不需要深入到日益复杂的代码中进行微小但必要的调整,人们可以请求一组Overton然后应用的更改。
毫不夸张地说,他们控制着欧弗顿的窗户。
我认为,苹果对Siri的雄心,不止是让它成为数字版的Siri,就像你有时会去查询一个略显无用的朋友,尽管你知道你可能得不到一个有用的回复。
Siri的目标是成为一个声控助手,能够带来高层次的信息、情境化的分析,并增加你已经在做的任务。Siri的建议显示了这一方向,不过实现方式仍然有限。
苹果表示:“当前工作的主要方向是构建在Overton之上的系统,以帮助管理数据扩充、程序监督和协作。”
我也认为Overton有用户隐私的含义。
这样想:
苹果公司的科学家们建立了他们认为非常精确的模型。这些模型在iOS设备上运行。Overton为这些模型提供了一定程度的独立性,而ML系统调整模型的准确性和相关性——所有这些都没有给研究人员提供对个体行为的细微洞察。
这意味着数据管理人员(在本例中,首先创建这些模型的科学家)占据更广泛的战略角色,在这些角色中,有关个人用户的信息对他们来说是不可用的。
苹果创造了ML机器来处理特定的任务,同时也装备了机器本身来个性化他们所使用的模型。这似乎就是欧弗顿的目的——当然也是促使苹果收购Silk Labs的部分原因。
苹果公司表示,Overton是第一个用于改善和监控应用程序质量的机器学习管理系统。从字里行间可以看出,当你把iPhone 11的摄像头对准宠物拍照时,它可能也是一种识别技术(我强调“可能”,因为我不知道还有什么更好的方法)。