超赞!YOLOv5的妙用:学习手语,帮助听力障碍群体

点击上方“小白学视觉”,选择加”星标“或“置顶

计算机视觉可以学习美式手语,进而帮助听力障碍群体吗科学家 David Lee 用一个项目给出了答案。

如果听不到了,你会怎么办只能用手语交流呢p>

为此,David Lee 在 交平台上发送了手语图像数据收集请求,介绍了这个项目和如何提交手语图像的说明,希望借此提高大家的认识并收集数据。

项目地址:https://github.com/insigh1/GA_Data_Science_Capstone

数据变形和过采样

David Lee 为该项目收集了 720 张图片,其中还有几张是他自己的手部图像。由于这个数据集规模较小,于是 David 使用 labelImg 软件手动进行边界框标记,设置变换函数的概率以基于同一张图像创建多个实例,每个实例上的边界框有所不同。

下图展示了数据增强示例:

在验证集上成功创建具备标签和预测置信度的新边界框。

26 个字母中,有 4 个没有预测结果(分别是 G、H、J 和 Z)。

四个没有得到准确预测:

  • D 被预测为 F;

  • E 被预测为 T;

  • P 被预测为 Q;

  • R 被预测为 U。

视频推断测试

几乎所有原始图像都显示的是右手,但 David 惊喜地发现数据增强在这里起到了作用,因为有 50% 的可能性是针对左手用户进行水平翻转。

儿童手语测试

尽管手语的使用和视频中有所不同,但这个示例表明当多个人出现在屏幕上时,模型可以分辨出不止一个手语实例。

模型局限性

David 发现,该模型还有一些地方有待改进。

距离

这支视频来自于志愿者,未用于模型训练。尽管模型看到过很多字母,但对此的预测置信度较低,还有一些错误分类。

背景推断

资源

  • Yolov5 GitHub 项目:https://github.com/ultralytics/yolov5

  • Yolov5 requirements:https://github.com/ultralytics/yolov5/blob/master/requirements.txt

  • Cudnn 安装指南:https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html

  • OpenCV 安装指南:https://www.codegrepper.com/code-examples/python/how+to+install+opencv+in+python+3.8

  • Roboflow 增强流程:https://docs.roboflow.com/image-transformations/image-augmentation

  • 常用图像数据增强技术综述论文:https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0#Sec3

  • Pillow 库:https://pillow.readthedocs.io/en/latest/handbook/index.html

  • labelImg:https://github.com/tzutalin/labelImg

  • Albumentations 库:https://github.com/albumentations-team/albumentations

原文链接:https://daviddaeshinlee.medium.com/using-computer-vision-in-helping-the-deaf-and-hard-of-hearing-communities-with-yolov5-7d764c2eb614

下载1:OpenCV-Contrib扩展模块中文版教程

下载2:Python视觉实战项目52讲

下载3:OpenCV实战项目20讲

交流群

文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树OpenCV中的深度学习图像分类11541 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年5月20日
下一篇 2021年5月20日

相关推荐