选自microsoft blog
机器之心编译
参与:高璇、Geek AI
作为人工智能的重要应用场景,在帮助残障人士拓展自身能力,使其融入 交活动的方面正发挥着越来越重要的作用。来自微软 Project Tokyo 团队的研究人员正与视力残障人士紧密合作,力图为他们打开一扇通往世界的大门。
Theo(左)是一名失明的 12 岁男孩,在对 Project Tokyo 系统进行用户测试时与 Microsoft 高级研究软件开发工程师 Tim Regan(中)和 Martin Grayson(右)进行互动。
借助AI,盲人可以在房间里人脸
2019 年 12 月中旬的一个阴雨天,12 岁的失明男孩 Theo 坐在拥挤的厨房里的一张桌子旁。他棕色的头发上绑着一个带有摄像机的头带,摄像机旁是深度传感器和扬声器。他左右转动自己的头,直到位于头带正前方的摄像头对准桌子另一端的一个人的鼻子。
Theo 通过位于耳朵上方的头带上的扬声器听到的一声提示音,然后听到的名字。
Theo 说:他将头和身体朝向 Martin Grayson 的方向。Grayson 是微软剑桥研究实验室的高级研究软件开发工程师,此时他站在一个齐膝高的黑色箱子旁,箱子中装着运行机器学习模型所需的计算硬件,Theo 用来他的原型系统正是由这些硬件驱动的。
Theo 的母亲 Elin 正站在另一侧的墙边,她说:
当 Theo 开始转向面对他的母亲时,扬声器又地响了一声,叫出了的名字。
Theo 高兴地着实验室的另一位高级软件开发工程师 Tim Regan 说。Tim Regan 将 Theo 带到他的身边,教他先进的计算机编码技能。Theo 和他的母亲每两个月会到 Regan 的家中上一次编程课。他们在一个研究项目中相识,该项目促成了 Code Jumper 的开发(Code Jumper 是一种物理编程语言,适用于各种视力水平的儿童)。
Theo 现在是和 Regan、Grayson、研究员 Cecily Morrison 以及其团队一起开展 Project Tokyo 项目的盲人和弱视群体中的成员之一,该项目是一项多方面的研究工作,旨在创建智能个人助理技术,利用人工智能来扩展人们的现有能力。
对于 Theo 而言,这意味着可以使用一些工具识别出周围的人。
Theo 说:。
Martin Grayson(左)是位于剑桥的微软研究实验室的高级研究软件开发工程师,他将微软研究员 Cecily Morrison(右)注册到 Project Tokyo 系统中进行用户测试。
Morrison 指出,研究项目 Project Tokyo 的长期目标是展示如何构建能够扩展所有用户能力的智能个人助理。她认为人工智能的未来趋势并不是构建可以完成特定任务的端到端系统,而是一组人们可以以合适自己的方式使用的资源。
她说。
巴西残奥会
Project Tokyo 诞生于 2016 年初,是当时微软高管们发起的一项挑战,希望创建的人工智能系统不仅仅只能完成诸如获取体育比分、天气预 或物体识别之类的任务。Morrison 说,为盲人和弱视人群创建工具很适合该项目,因为残疾人通常是新技术早期的采用者。
Morrison 说:
Morrison 和她的同事 Ed Cutrell 都是位于华盛顿州雷蒙德的微软研究实验室的高级首席研究员,他们被任命领导该项目。他们都是与盲人或弱视人士一起设计相关技术的专家,他们决定从了解智能个人助理技术如何增强或扩展用户的能力开始进行研究。
首先,他们跟随一群具有不同视力水平的运动员和观众,从英国出发前往巴西里约热内卢的 2016 年残奥会,观察他们在进行机场导航、出席运动场馆、旅游观光等活动时如何与其他人互动。Cutrell 指出,需要明确的是对 交环境的丰富理解如何帮助盲人或弱视人士了解他们的环境。
他说:。
为了促进用于盲人和弱视人士的技术的研究,的 区举办了一系列研讨会,研讨重点是可以提供这种体验的潜在技术。Peter Bosher 是一名 50 多岁的音频工程师,他一生大部分时间都是在黑暗中度过的,他与 Project Tokyo 团队合作。他说,这种可以为人们提供周围人信息的技术概念立刻引起了他的共鸣。
他说。
位于华盛顿州雷蒙德市的微软研究组织的高级首席研究员 Ed Cutrell 是 Project Tokyo 的共同负责人。在他的桌子上放着几个经过改良的微软全息透镜(Microsoft HoloLens),项目研究人员正在使用它们帮助盲人和弱视人士了解他们所处的 交环境。
改良的
当 Project Tokyo 的研究人员了解了他们想要创建的人工智能体验的类型后,他们便着手构建这项技术。他们从原始的 Microsoft HoloLens 开始,这是一种混合现实头戴设备,可将全息图投影到用户可以操作的真实世界中。
格雷森在微软剑桥实验室的技术演示中说:
例如,该设备有一个灰度相机阵列,可提供接近 180 度的环境视角,以及用于高精度面部识别的高分辨率彩色相机。此外,用户耳朵上方的扬声器可实现音频空间化——声音的产生就好像来自用户周围的特定位置。
然后,Project Tokyo 团队的机器学习专家开发了一系列计算机视觉算法,可提供有关用户所处的环境中存在人员的不同优先级信息。这些模型在 GPU 上运行,这些 GPU 位于 Grayson 的黑色箱子中,再把这些箱子运到 Regan 的家中,让 Theo 进行用户测试。
例如,一种模型可以检测环境中人的姿势,从而可以感知到人与用户之间的距离及其位置。另一个模型则分析高分辨率相机采集的照片流,以识别人脸并确定名字。所有信息都通过音频提示传递给用户。
假如设备检测出用户左侧一米远处有一个人,则系统将播放听起来像是来自左侧一米远处的咔嗒声。如果系统识别出该人的脸部,它将发出的声音,并且如果该系统知道这个人的名字,它将叫出其姓名。
当用户仅听到咔嗒声但想知道该人是谁时,第二层声音会像松紧带一样将用户的视线引向该人的脸部。当镜头的中央摄像头与人的鼻子正对时,用户会听到尖锐的咔哒声,如果系统知道此人,则会播 他的名字。
Bosher 说:。在设计过程的早期,他与 Project Tokyo 团队合作就音频体验进行合作,随后他又回到了剑桥实验室讨论他的经验并验证最新版本。
音频工程师 Peter Bosher(中)是一名盲人,他在设计过程的早期就与 Project Tokyo 团队开始了合作,他与研究人员 Martin Grayson(左)和 Cecily Morrison(右)在微软位于剑桥的研究实验室查验了该系统的最新版本。
用户一起制作原型
随着 Project Tokyo 团队对技术的开发和发展,研究人员通常会邀请成年盲人或弱视人士测试该系统并提供反馈。例如,为了促进更直接的 交互动,研究团队从 HoloLens 上去掉了镜头。
一些用户表示希望在不频繁转头的情况下,不引人注意地获得系统收集的信息,因为频繁转头让他们在 交中感到尴尬。这些反馈促使 Project Tokyo 团队开发了一些功能,可以帮助用户快速了解周围的人,例如询问概况并获得系统可以识别的所有人的姓名和空间信息。
另一个实验性功能是,当某人看向他们时,它会发出空间通知,这是因为拥有健康视力的人通常会建立眼神交流来发起对话。但是发出这个通知后没有紧跟着 名字。
Grayson 向 20 多岁的弱视测试员 Emily 解释,她参观了剑桥实验室以了解最新功能。
Emily 说:。
研究人员向 Emily 展示了改良后的 HoloLens,它的摄像头上方还装有一个 LED 灯带。白光跟踪最接近用户的人,当这个人被识别后,灯会变成绿色。该功能可让交流伙伴或旁边的人知道他们已经被人看见,从而使对话更加自然。
LED 灯带还让人们可以离开设备的视野而不会被看见(如果他们选择这么做)。Morrison 指出。。
盲人音频工程师 Peter Bosher(左)在英国剑桥的微软研究实验室中查验了 Project Tokyo 的最新版本。Bosher 佩戴了改良后的 Microsoft HoloLens,它将视野中的图像传输到计算机硬件进行处理。笔记本电脑屏幕上的仪表板显示了这个视野。HoloLens 可以看到 Microsoft 研究人员 Cecily Morrison 和 Martin Grayson。
教授 交互动技能的工具
随着技术研究的不断深入,Project Tokyo 正在探索研究过程中发现的使用方法:利用该技术帮助盲人或弱视儿童发展 交能力。
一份学术研究显示,三分之二的失明或弱视儿童表现出与自闭症儿童相一致的 交行为。例如,许多失明或视力低下的孩子似乎对谈话对象漠不关心,常常将头靠在桌子上,耳朵露在外面。
Morrison 和 Cutrell 围绕 Project Tokyo,探索迷你版系统是否可以用来帮助盲人或弱视儿童,让他们了解如何利用肢体来与人互动。
Microsoft 研究人员已经与 Theo 建立了联系,希望通过他来了解该系统适应儿童的需要,例如考虑了儿童爱坐在一起的习惯,而且很少坐着不动。
Theo 回忆说:。
研究人员还探究了 Theo 如何使用该系统。例如,在一次家庭用餐期间,他开始反复细微地将头左右移动,使系统读出与他交谈的人的名字。
Morrison 说:
该技术的其他用途更符合研究人员的假设,即帮助他培养在一个由视力正常的人主导的世界中进行 交互动的技能。
例如,像其他失明或弱视的孩子一样,Theo 会在 交场合中将头放在桌子上,一只耳朵露在外边。研究人员与 Theo 一起玩了一系列游戏,旨在说明当他使用身体和头部与视力正常的人交谈时可能产生的 交力量。
在实验室的游戏中,研究人员要解决一组问题。Theo 知道答案,研究人员仅知道该主题,并且只有在 Theo 看着他们时他们才能交谈。当 Theo 移开视线时,他们就会停止交谈。
Morrison 说。。
现在 Theo 很少再把头放在桌子上说话了。无论是否佩戴着改良版的 HoloLens,他都会将自己的身体和脸朝向他想交流的人。这种变化是否会长期持续还尚未可知,研究人员也不确定其他失明或视力低下的孩子是否也会做出类似反应。
Cutrell 说。。
微软剑桥研究实验室的机器学习研究员 Sebastian Tschiatchek 正在研究让人们可以使 Tokyo Project 系统更加个性化的功能。Jonathan Banks 摄影。
Project Tokyo 未来的发展方向
Project Tokyo 的研究工作仍在继续,包括机器学习的新方向,让用户可以根据自己的喜好调整系统。剑桥实验室的机器学习研究员 Sebastian Tschiatschek 正在研究一种功能,使用户能够向系统显示他们想听的信息类型和数量。
个性化的发展要求 Tschiatschek 采取非常规的机器学习方法。
他说:。
他解释说,对个性化的需求之所以存在,是因为盲人或弱视人士具有不同的视力水平,因此对信息需求也不同。此外,系统用户在被告知他们已知的信息时,会感到沮丧。
Tschiatschek 说:。
最终,Project Tokyo 将展示出如何构建可扩展所有用户的能力的智能个人助理。为了实现这一目标,Morrison、Cutrell 及他们的同事将继续与盲人或视力低下的人,包括更多的儿童一起合作。
在 Regan 家进行系统测试的第二天,Morrison 在她的办公室说。。
越来越多的儿童参与到了 Project Tokyo 项目中,其中就包括 Morrison 7 岁的儿子 Ronan,他自出生以来就失明了。
她补充说:
参考链接:
https://news.microsoft.com/innovation-stories/project-tokyo/
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!