为1700万视障群体寻找视觉助手

数据显示,我国目前有1700多万视力障碍人士,越来越多的社会力量关注到了他们,并试图用技术和公益来改变他们的困境。

2023年1月13日下午,位于北京大钟寺的一个报告厅里,由抖音集团产品、研发工程师以及清华大学、浙江大学等高校学生组成的12支队伍正在进行决赛。5个多月前,64支队伍,501名参赛选手开启了这场“AI助力视障群体”为主题的技术公益大赛。

01.

找对一双袜子

“袜子会不会穿错?冰箱里的食物会不会过期?我们是否可以帮视障用户,摆脱这些基本的困扰,是我们做这件事情的初衷。”

来自“灵瞳”团队的产品经理在决赛舞台上阐明了团队的目标,他们希望能为视障人群带来一个全方位的视觉助手。这个助手需要是语音、识别以及互动的能力。

灵瞳产品演示资料

在大量调研之后他们发现,目前相关产品分为三类,一是AI语音助手,它能询问天气预报、语音输入协助检索互联网上的信息,但是这仅实现了对话式智能,无法满足视觉需求;第二类是视觉识别工具,例如微软专为视障开发的Seeing AI和谷歌的Look out应用,其商品识别功能能够帮助用户获取商品条码中的信息,以及阅读文档。但是无法实现与用户的交互,即,它的识别功能只会对物体进行识别,文档阅读功能只能阅读全部文字,用户无法传递自己的有效、具体需求,只能被动接收AI的识别结果;第三类则是人工求助,如 Be My Eyes 和 Aira 项目,工作人员或志愿者通过视频的方式为视障人群提供帮助,但是其人力和付费成本都比较高,很难推广。

因此,“灵瞳”团队决定设计一款“对话式视觉助手”。简单来说,这是一款应用于手机和智能眼镜的APP,初始界面类似一个相机,它可以听取和理解用户发起的提问,同时点击按钮录制物品信息,它会根据问题提取有效信息并语音回答。

为此,他们主要从两个方面来改进灵瞳的功能,一个是交互,一个是视觉。交互上,除了连续探索模式,还可以指尖探索,即用手触摸屏幕来告诉用户物品的相对应位置,还有一种是对话定位,用户可以先告诉灵瞳想要什么样的物品,比如想要寻找一个黄色的东西,你可以拿着摄像头去寻找,一旦你想要的目标出现在屏幕中,灵瞳就会提示用户的位置,在屏幕的左侧还是右侧。灵瞳还有一些辅助能力,比如找对袜子,线下买衣服,灵瞳都可以帮助你做一些辅助信息和判断。

“灵瞳”团队成员在比赛现场

此外,视障人士在使用智能设备时,可能出现隐私问题,比如视障人士在拍摄时,并不知道他拍摄的画面点有没有相关的隐私信息,比如银行卡的图片,为此,他们加入了智能信息的检测能力,检测到涉及隐私信息的图就要确保图片不会传出手机。

灵瞳团队相关负责人介绍,该创意在技术层面涉及到多模态技术,如视觉语言问答、视觉语言预训练、视觉文字描述等,这些技术近两年在学术界取得了显著进展。其它的计算机视觉技术和语音技术,包括文字检测和光学字符识别、语音识别和语音合成等技术已经成熟稳定并广泛应用。

灵瞳团队的成员,一名来自抖音集团的研发工程师表示,他最早的触动来自身边人——一位好朋友去年患上视网膜相关的疾病,接下来视力会慢慢受影响甚至完全失明。从那之后,他就开始关注相关领域的技术和研发,直至这次参加比赛。

在决赛中,灵瞳团队得分最高,获得一等奖,目前灵瞳iOS端App已经进入内测阶段。

02.

可以听见的二维码

另一款颇受关注的参赛作品是“听码”。日常工作和生活中频繁出现的扫码操作给视障人群带来极大困扰,而“听码”能够将目前的“平面图片”扫码转换为一种更为沉浸式的“空间音频”扫码。

从技术而言,它构建了一种全端到端的编码器以及解码器模型训练框架,编码系统能将收款支付连接、身份识别信息、网页入口链接等信息加入到一段声音信号上。这段声音信号可以是一首歌曲或者是一段指令语音。当视障人士听到这段声音信号后,会使用装载有解码系统的终端设备上麦克风来接收到语音信号。此时解码系统会解码得到二维码信息,从而完成收付款、身份验证、进入网页等操作。目前该项目已通过技术评测并申请专利,未来,将融入抖音等产品的相关扫码功能。

“聆影听光”团队想尝试改善视障人群对于视频内容的需求。目前,无障碍视频内容流程是人工重新撰写对应视频内容的脚本,再配音录制,辅之以智能读屏。由于制作成本高,且标准不统一,视障用户可选择的内容少且体验不好。

他们希望通过技术将现有的长短视频能够更智能的制作,核心技术是智能视频理解、智能语音合成、智能语音识别。在视频理解并自动生成旁白文本的能力还未成熟时,他们开发了标注平台,通过标注和语音合成技术生成旁白底稿和音库。在视频理解自动生成底稿能力经过验证后,即可全自动化生产中长音视频内容,范围逐渐可以扩大至电视剧、综艺、电影、体育比赛等。

“聆影听光”团队成员在比赛现场

在团队成员看来,视障人群在这方面的需求可能要更强烈,不仅是出于娱乐,还有社交的目的——有更多话题可以融入身边环境。

12支进入决赛的团队依据自身技术特点,还提供了关于视障人群的出行、办公、购物、美妆、游戏等需求的智能解决方案。

“BANG”为视障人群提供了一款无障碍的创作工具:用AI技术实现文本转图、图像编辑、色块成图等功能,支持语音交互方式,帮助视力障碍人群进行便捷创作和表达。

“世界和平“小队则从工作场景出发,希望提供一种面向B端的“工区无障碍改造”的智能工具,为有视力障碍人群就职的机构提供无障碍化改造方案,以给视障群体提供更加舒服的办公环境。

03.

和视障人群“肩并肩”

人类的悲欢并不相通,“明眼人”也很难真正理解视障人群生活中的不便,一直致力于帮助视障群体的公益人傅高山对此深有感触:“明眼人要真正与视障人群从面对面切换进入到肩并肩视角是很难的,让明眼人理解我们真实的需求是第一步。”

要打破这样的隔阂,仅仅热情是不够的,需要耐心的沟通,甚至放下自己对产品和技术的“执念”。

比如“BANG”团队的刘玮,在对视障群体相关专家的用户体验做了反馈后就发现,自己原本的认知被颠覆了,也改变了产品的设计方向:“我们完全不应该把所谓的弱势群体和视障群体去挂钩,视障群体能做的和需要做的和非视障群体没有区别,他们更希望自己使用的产品和非视障群体是相同的,重要的是我们能在产品设计初期就做好无障碍的适配,有利于未来去做一个面向全民的工具。”

而设计耳机的微光团队,与用户沟通需求后发现,起初他们认为可以通过技术让产品落地,但实际上技术在很多问题上是没有效果的。“即使是上地铁和下地铁,买东西和结账,都要面临非常细分的问题,好的技术可能不是使用所谓的高科技,而是能够低成本且有效的解决问题。”最终团队回归到对人的依赖上,让用户可以联系在线的紧急联系人,或者一公里内愿意提供支持的用户。

技术公益,出发点和落脚点,都是公益而非技术,最终也要回归到帮助视障人群真正解决问题上。灵瞳团队的产品经理也经历过这样的改变:“技术人有时候会有一点技术洁癖,比如会追求一个漂亮的交互或者高级的算法,而忽略其他东西。比如,产品中有一个‘帮助视障者探索环境和定位感兴趣物品’的小功能,它卡住了流程,交互和运行都不满意。最后在受益人的建议下,我们采取了看起来比较低阶的技术形式,但是解决了更多问题。关注真实需求,这也是我们的学习的经历。”

比赛的评审问答互动环节

本次活动上,评委除了行业专家,还有视障专家团,如傅高山、盲人美妆师肖佳等。过程中他们作为观察者,也坦诚给出各个队伍和产品真实的反馈。中国盲人协会主席李庆忠,在比赛的最后表示,听到这些项目很感动,因为感受到,项目团队们对盲人的需求了解的非常深,也很有针对性。即使场景范围较小的项目,比如美妆,也具有突破性的意义。

在最后,负责赛事的相关负责人表示,比赛只是为了提供更多的创意,创意之后可能还有demo、还有上线、还有运转和维护等,赛后,抖音公益会支持和协助有价值的项目进行孵化和落地。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-01-16
为1700万视障群体寻找视觉助手
为1700万视障群体寻找视觉助手

长按扫码 阅读全文