您所在的位置:首页  >  找需求  >  正文
收藏 分享

声源定位的抗干扰性、人脸检测的算法延时

硬件 / 数码

硬件/数码 | 其他电子信息
预算:面议 福建 厦门市 截止时间:0808-90-79 需求方:成*
需求无效
需求描述

技术需求说明: 研究目标:研发视频发言人检测算法,精度、延时满足实际要求,依据发言人定位,设计状态机逻辑,使全景画面聚焦于发言人,平滑切换镜头画面。 主要研究内容:(a)麦克风阵列声源定位,根据语音信号频谱的特点,采用近场二维宽带MUSIC声源定位算法,对阵列信号频谱划分的若干个子频带进行一定取舍,能量较高的子频带,得到的声源位置估计结果误差在会议室场景允许范围之内;(b)人脸检测,基于人工神经网络算法,设计针对边缘计算设备或低算力设备的轻量级人脸检测网络,收集和标定实际会议场景训练数据,验证算法性能,降低算法资源消耗;(c)运动目标预测,结合深度图和视频特征,判别运动目标,当人脸检测失败时,可增强发言人定位的精准性。基于视频活动检测和音频声源检测以及两者的比较结果,能够相对可靠的确定视频会议中当前的发言人。 可以对接各大高校院所

相关需求
最新技术成果
标签