您现在的位置是:首页 > 科技 > 正文
计算机科学和人工智能实验室的深度学习视觉系统
发布时间:2024-06-14 06:28:14来源:
当我们看到两个人相遇时,我们通常可以预测接下来会发生什么:握手,拥抱,甚至是吻。我们预测行动的能力归功于一生中经历的直觉。
另一方面,机器难以利用这样的复杂知识。预测行动的计算机系统将开辟新的可能性,从可以更好地驾驭人类环境的机器人,到预测跌倒的紧急响应系统,到谷歌玻璃风格的耳机,为您提供在不同情况下做什么的建议。
本周麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员在预测视觉方面取得了重大的新突破,开发出一种能够比以往更准确地预测交互的算法。
在YouTube视频和电视节目(如“办公室”和“绝望主妇”)上接受过培训,系统可以预测两个人是否会拥抱,亲吻,握手或拍打五个人。在第二种情况下,它还可以预测五秒钟后视频中可能出现的对象。
虽然人类的问候可能看似像预测的任意行为,但这项任务可以作为一个更容易控制的测试案例供研究人员研究。
“人类通过经验自动学会预测行动,这使我们有兴趣试图让计算机充满同样的常识,”CSAIL博士生Carl Vondrick说道,他是相关论文的第一作者,他将提出这一点。本周计算机视觉和模式识别国际会议(CVPR)。“我们希望通过观看大量视频来表明,计算机可以获得足够的知识,以便始终如一地预测周围环境。”
Vondrick的合着者包括麻省理工学院教授Antonio Torralba和前博士后Hamed Pirsiavash,他现在是马里兰大学的教授。
过去预测计算机视觉的尝试通常采用两种方法之一。
第一种方法是查看图像的单个像素,并使用该知识逐个像素地创建逼真的“未来”图像 - 这是Vondrick描述为“对于专业画家来说很难,更不用说算法”的任务。第二种方法是让人类事先为计算机标记场景,这对于能够大规模地预测动作是不切实际的。
相反,CSAIL团队创建了一种可以预测“视觉表示”的算法,这些算法基本上是冻结帧,显示场景可能看起来的不同版本。
“而不是说一个像素值是蓝色,下一个是红色,依此类推,可视化表示显示有关较大图像的信息,例如代表人脸的某些像素集合,”Vondrick说。
该团队的算法采用深度学习技术,这是一个人工智能领域,使用称为“神经网络”的系统来教授计算机挖掘大量数据以自行查找模式。
每个算法的网络预测表示被自动分类为四个动作之一 - 在这种情况下,拥抱,握手,高五或亲吻。然后,系统将这些操作合并为一个用作预测的操作。例如,三个网络可能预测一个吻,而另一个可能会使用另一个人进入框架的事实作为预测拥抱的理由。
“视频不像'选择你自己的冒险'一书,你可以看到所有潜在的路径,”Vondrick说。“未来本质上是模棱两可的,所以挑战自己开发一个使用这些表示来预测所有可能性的系统是令人兴奋的。”
在对600小时无标签视频进行算法训练后,团队在新视频上对其进行了测试,同时显示了动作和对象。
当显示距离执行四个动作之一一秒钟的人的视频时,该算法正确地预测该动作超过43%的时间,这与现有算法相比仅占36%的时间。
在第二项研究中,该算法显示了一个视频帧,并被要求预测五秒钟后会出现什么对象。例如,看到有人打开微波炉可能会暗示未来咖啡杯的存在。该算法预测框架中的物体比基线测量值更精确30%,尽管研究人员警告说它仍然只有11%的平均精度。
值得注意的是,即使是人类也会在这些任务上犯错误:例如,人类受试者只能在71%的时间内正确预测行动。
“理解和预测人类互动有很多微妙之处,”Vondrick说。“我们希望能够在这个例子中工作,以便能够很快预测出更复杂的任务。”
虽然这些算法对于实际应用来说还不够准确,但Vondrick表示,未来的版本可以用于从制定更好的行动计划的机器人到安全摄像头的所有内容,当有人跌倒或受伤时,可以向紧急救援人员发出警报。
“如果我们可以为他们提供终身价值的视频,我很高兴看到算法有多好,”Vondrick说。“我们可能会看到一些重大改进,这些改进将使我们更接近在现实世界中使用预测视觉。”
这项工作得到了科学基金会的资助,以及Torralba的谷歌教师研究奖和Vondrick的谷歌博士奖学金。
标签:
猜你喜欢
- ipad4怎么下载软件(iPad4怎么下载软件)
- Apple Watch Series 5具有永不在线的显示屏 并采用钛金属或陶瓷表面处理
- Infosys希望在20财年节省100-1.5亿美元公司确认没有解雇现有员工的计划
- 佳能二倍增距镜适用哪些镜头(佳能2倍增距镜拍摄效果怎么样)
- Google本周初发布了Android OS的新更新为Pixel手机带来了Camera app 7.2
- 华硕笔记本哪个型号性价比最高(华硕笔记本哪个性价比最高)
- 谷歌发布Android 10手机改进的前8种方式
- Vodafone RedX计划每月收费999卢比它提供了50%的更快数据速度以及通话优势
- Google Nest Hub将显示触摸控件以感应附近是否有人
- nv显卡哪个型号最好(NV帕斯卡显卡有哪些型号)
最新文章
- 面对常见九类违法犯罪你该怎么做? 到底什么情况嘞
- 成都小伙村里拍老人40万网友爆笑爆哭催更 到底什么情况嘞
- 杭州通报4起违规吃喝典型问题 到底什么情况嘞
- 全国人大常委会关于实施渐进式延迟法定退休年龄的决定 到底什么情况嘞
- 月满团圆乐动中秋!
- 大学生每月生活费1500元够吗?
- 僧籍(关于僧籍的简介)
- #鸡有几个胃# ?
- #河南高校手绘地图迎新生很哇塞#[憧憬]
- #你还会买实体书吗#
- 僧稠丧事诏(关于僧稠丧事诏的简介)
- 太酷了! #C919披上了五星红旗#
- #处暑已至# 秋意渐浓
- 僧稠(关于僧稠的简介)
- #不直播的李佳琦们都去哪里捞金了#
- 僧祗户(关于僧祗户的简介)
- #你一般喝什么价格的奶茶?#
- 僧祖可(关于僧祖可的简介)
- 僧祐(关于僧祐的简介)
- 僧祇粟(关于僧祇粟的简介)
- 僧祇支(关于僧祇支的简介)
- 冲锋在“反诈第一线”的“小店” 让人心里一暖 到底什么情况嘞
- 月满团圆乐动中秋!
- 大学生每月生活费1500元够吗?