手语是一种复杂的交流方式,对失聪或听力障碍的人来说至关重要,它依靠手部动作、面部表情和肢体语言来传达微妙的意思。美国手语以其独特的语法和句法体现了这种语言的复杂性。
手语并不是通用的;相反,世界上有许多不同的手语,每种手语都有自己的语法、句法和词汇,凸显了全球手语的多样性和复杂性。
人们正在探索各种方法,将手语手势实时转换为文本或口语。为了提高聋哑人或听力障碍者的交流便利性,需要一种可靠的实时系统,能够准确地检测和跟踪美国手语手势。这一系统可以在打破沟通障碍和确保更具包容性的互动方面发挥关键作用。
为了解决这些沟通障碍,佛罗里达大西洋大学工程与计算机科学学院的研究人员进行了一项首次研究,重点是使用计算机视觉识别美国手语字母手势。他们开发了一个包含29,820张美国手语手势静态图像的定制数据集。使用MediaPipe,每张图像都标注了21个关键地标,提供了其结构和位置的详细空间信息。
这些注释在提高研究人员训练的深度学习模型YOLOv8的精度方面发挥了关键作用,使其能够更好地检测手势的细微差异。
该研究结果发表在Elsevier期刊《Franklin Open》上,揭示了通过利用这些详细的手部姿势信息,该模型实现了更精细的检测过程,准确地捕捉了美国手语手势的复杂结构。结合MediaPipe的手部运动跟踪和YOLOv8的训练,形成了一个功能强大的系统,可以识别美国手语字母手势,准确率很高。
“结合MediaPipe和YOLOv8,以及微调超参数以达到最佳精度,代表了一种开创性和创新的方法,”FAU电气工程和计算机科学系的第一作者和博士候选人Bader Alsharif说。“这种方法在以前的研究中没有被探索过,这使它成为未来发展的一个新的、有希望的方向。”
研究结果表明,该模型的准确率为98%,正确识别手势(回忆)的能力为98%,整体性能得分(F1分数)为99%。平均平均精度(mAP)为98%,更详细的mAP50-95评分为93%,显示了其在识别美国手语手势方面的高可靠性和准确性。
阿尔沙里夫说:“我们的研究结果表明,我们的模型能够准确地检测和分类美国手语手势,而且错误很少。”“重要的是,这项研究的发现不仅强调了系统的稳健性,而且强调了它在实际、实时应用中的潜力,以实现更直观的人机交互。”
将MediaPipe的地标注释成功地集成到YOLOv8训练过程中,显著提高了边界盒的准确性和手势分类,使模型能够捕捉手部姿势的细微变化。事实证明,这种地标跟踪和目标检测两步方法对于确保系统在现实场景中的高精度和高效率至关重要。该模型即使在不同的手部位置和手势下也能保持高识别率,这突出了它在不同操作环境下的优势和适应性。
“我们的研究展示了将先进的目标检测算法与实时手势识别的地标跟踪相结合的潜力,为美国手语解释提供了可靠的解决方案,”FAU电气工程和计算机科学系教授,合著者Mohammad Ilyas博士说。“这个模型的成功很大程度上归功于迁移学习的仔细整合、细致的数据集创建和超参数的精确调优。这种结合导致了一个高度准确和可靠的识别美国手语手势系统的发展,代表了辅助技术领域的一个重要里程碑。”
未来的工作将集中在扩展数据集,包括更广泛的手部形状和手势,以提高模型区分可能在视觉上看起来相似的手势的能力,从而进一步提高识别精度。此外,优化在边缘设备上部署的模型将是一个优先事项,确保它在资源受限的环境中保持其实时性能。
FAU工程与计算机科学学院院长Stella Batalama博士说:“通过提高美国手语的识别能力,这项工作有助于创造能够增强聋人和听力障碍群体交流的工具。”“该模型可靠地解读手势的能力为更具包容性的解决方案打开了大门,这些解决方案支持可访问性,使日常互动——无论是在教育、医疗保健还是社交环境中——对依赖手语的个人来说更加无缝和有效。”这一进展为建立一个更包容的社会带来了巨大的希望,在这个社会中,沟通障碍会减少。”
作者:佛罗里达大西洋大学
链接:https://www.sciencedaily.com/releases/2024/12/241216125906.htm
著作权归作者所有。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com
2024-12-20 08:31:52
佛罗里达大西洋大学