DeepMind AI通过观看视频来教授世界

2025-06-20 05:56来源:本站

新科学家。科学新闻和专家记者的长期阅读,涵盖了网站和杂志上的科学,技术,健康和环境的发展。ntext="Article" data-image-id="2143500" data-caption="Lions roar: video clips beat labels for AIs seeking knowledge" data-credit="OE KLAMAR/AFP/Gettyvide" />

狮子咆哮:视频剪辑击败了AIS寻求知识的标签

OE Klamar/AFP/GetTyvide

对于未经训练的AI来说,世界是令人困惑的数据流的模糊。大多数人毫无疑问地了解它们周围的视线和声音,但是如果将这些视觉和声音明确标记为它们,算法往往会掌握此技能。

现在,DeepMind开发了一个AI,它可以通过观看视频小片段来教会自己识别一系列视觉和音频概念。例如,这种AI可以掌握草坪割草或挠痒痒的概念,但尚未教会这些单词来描述其听力或所见。

加利福尼亚大学伯克利分校的普尔基特·阿格拉瓦尔(Pulkit Agrawal)说:“我们想建造以自动方式不断学习环境的机器。”没有参与这项工作的阿格拉瓦尔(Agrawal)说,这个项目使我们更接近创建可以通过观看和倾听周围世界来教学的AI的目标。

大多数计算机视觉算法都需要给大量标记的图像喂食,以便将不同的对象分开。显示一种算法数千张标有“猫”的猫照片,即使在以前从未见过的图像中,它也会学会识别猫。

但是,在DeepMind领导该项目的ReljaArandjelović说,但是这种教学算法(称为监督学习)并不是可扩展的。他的算法并没有依靠人标记的数据集,而是通过将其看到的内容与听到的内容相匹配来识别图像和声音。

瑞士伯尔尼大学的Paolo Favaro说,人类特别擅长这种学习。他说:“我们没有人跟随我们,告诉我们一切是什么。”

Arandjelović通过从两个网络开始创建了他的算法 - 一个网络专门识别图像,另一个专门从事音频的工作。他展示了从简短视频中获取的图像识别网络剧照,而音频识别网络是在每个视频中从同一点获取的1秒音频剪辑中训练的。

第三个网络将静止图像与音频剪辑进行了比较,以了解与视频中哪些景点相对应的声音。总的来说,该系统接受了从40万次视频中拍摄的6000万个静止审计对培训。

该算法学会了识别音频和视觉概念,包括人群,踢踏舞和水,而从未看到单个概念的特定标签。例如,当显示某人拍手的照片时,大多数时候它知道哪种声音与该图像相关联。

Agarwal说,这种共同学习方法可以扩展到包括视觉和听力以外的其他感觉。他说:“例如,学习视觉和触摸功能可以使代理商能够在黑暗中搜索对象并了解诸如摩擦之类的材料属性。”

DeepMind将在10月下旬在意大利威尼斯举行的国际计算机视觉会议上介绍这项研究。

尽管DeepMind项目中的AI与现实世界没有互动,但Agarwal表示,完善自我监督的学习最终将使我们创建可以在现实世界中运作并从其所看到和听到的知识的AI。

但是,在我们达到这一点之前,自我监督的学习可能是训练图像和音频识别算法的好方法,而无需大量人类标记的数据输入。DeepMind算法可以正确地对音频剪辑进行近80%的时间分类,从而使其在音频识别方面比许多对标记数据培训的算法更好。

这种有希望的结果表明,类似的算法可能能够通过通过YouTube的数百万个在线视频(例如YouTube的数百万个在线视频)进行措施来学习一些东西。Agrawal说:“世界上大多数数据都是未标记的,因此开发可以从未标记数据中学习的系统是有意义的。”

期刊参考:arxiv.org

阅读更多:好奇的AI通过探索游戏世界和犯错而学习

左文资讯声明:未经许可,不得转载。