微软开源关键词必应搜索搜索算法

导读 信不信由你,关键词查询在网络搜索中所占的比例越来越小。得益于Google Lens、Bing Visual Search等工具的支持,计算机视觉算法的

信不信由你,关键词查询在网络搜索中所占的比例越来越小。得益于Google Lens、Bing Visual Search等工具的支持,计算机视觉算法的驱动力超过了它们的公平份额,支持Alexa、Google Assistant等智能助手的自然语言处理模型也是如此。越来越多的媒体合成是微软转向另一种AI技术——空间分区树和图(SPTAG)来更好地分析搜索的原因之一。它现在可以在开源中使用,有一些示例技术和附带的视频。

正如微软在一篇博客文章中解释的那样,SPTAG使开发人员能够使用结果来发现AI,而AI是以毫秒为单位用向量来表示的——单词、图像像素和其他数据点。微软表示,SPTAG(用C语言编写,Python封装)是Bing搜索服务的核心,用于帮助公司的研究人员“更好地理解”数十亿次网络搜索背后的意图。

要了解它的功能,请尝试点击搜索查询“巴黎的塔有多高?”看着冰。它会得到正确的答案——1063英尺——虽然“埃菲尔”这个词没有出现在问题中,但“高”这个词从未出现在结果中。

那么它是如何工作的呢?分配给数据位的向量可以排列或映射,以指示彼此的相似性。这些近端结果显示给用户;在Bing中,在搜索之后,扫描索引向量以提供最佳匹配。此外,这些任务还用于训练模型,模型考虑输入,如搜索后的最终用户点击,以“更好地理解搜索的含义”。

微软表示,必应搜索迄今已收集了超过1500亿条数据,包括单词、字符、网页片段和完整查询。Bing的项目经理Jeffrey Zhu说:“Bing每天要处理数十亿份文档。现在的想法是,我们可以将这些项目表示为向量,在这个超过1000亿个向量的巨大索引中进行搜索,并在5毫秒内找到最相关的结果。

Bing团队预计,开源SPTAG可以用于构建应用程序,根据音频片段识别正在使用的语言,或者允许用户拍摄花卉图片并识别其属种。

Bing集团项目经理Rangan Majumder表示:“当人们提问或者拍照,问搜索引擎‘这是什么’,关键词搜索算法就会失效。”“我们刚刚开始探索在这种深度的矢量搜索中有什么可能。”

免责声明:本文由用户上传,如有侵权请联系删除!