布局智能终端+服务平台，声联网能否成为婴儿哭声检测市场先行者？

转自：亿欧作者：杨阳 2018-08-23·11:29

[ 亿欧导读 ] 深圳声联网科技有限公司是一家从事音视频感知技术的提供商，主要研发方向是：面向对象音视频的行为分析和情感计算，工作前期是通过公司积累的婴幼童和老年人的音视频大数据，进行数据深度分析和学习，从而实现对特定对象的实时监护。

声联网,音频识别,语音识别,场景识别,频谱分析

图片来自“亿欧网”

近年来，随着生物特征识别技术的迅速发展，指纹识别、人脸识别、虹膜识别、声纹识别、步态识别等技术也相应进行了研发落地，且在精确度上基本可达95%以上。通过生物个体特征的差异化，然后对其进行特征抽样提取，以此作为身份识别的求证方式。这类识别技术的通用性、实用性对于智能安防、刑侦鉴定、出入境管理、日常考勤、信息安全等领域有重要的应用落地。其中，音频识别的市场因为科大讯飞的一家独大，其他企业便一直趋向于稳定发展。

深圳声联网科技有限公司是一家从事音视频感知技术的提供商，主要研发方向是：面向对象音视频的行为分析和情感计算，工作前期是通过公司积累的婴幼童和老年人的音视频大数据，进行数据深度分析和学习，从而实现对特定对象的健康、心理、情绪状态的实时监护。

音频场景识别，单通道测试场景下相对识别错误率低至13%

音频识别技术，在科学研究上大致分为语音识别、声纹识别、语种识别、音频DNA识别、音频水印识别等识别技术。而在场景识别应用范围上，场景自动感知的模式化已不能随时贴合客户需求，音频场景识别随着科学研究的深入化，更能为用户提供全面而精准的需求补助。音频场景识别是通过识别场景产生的声学内容，判断感知主体所处的环境，并对特定的音频场景进行标注。

相关资料表示，基于局部纹理特征的音频场景识别，是以局部模式方法提取音频时频纹理，并结合时间延迟深度神经网络和后处理决策机制，估计输入音频对应不同场景类型的后验概率，实现对特定音频场景的识别。

据相关科学文献资料显示，近期研究人员通常从两个方面展开对音频识别技术的研究，其一，在认知心理学方面，研究人耳对于音频场景的认知过程，以及如何理解音频场景。其二，在计算模型方面，试图结合信号处理与机器学习的方法，模仿人类声音的感知过程，从复杂音频信号中分辨出：“在什么时间、什么地点、发生了什么事件”。此外，依据实验结果验证，该方法进一步完善了音频场景信息的表征机制，且在DCASE2016单通道测试场景下，相对识别错误率降低了约13%。

音频场景识别技术，主要包括模型训练和模型测试两个阶段。在训练阶段，需要对训练数据集中的音频信号进行分帧、加窗等预处理，从而进行特征提取、TDNN网络模型训练。在测试阶段，将每一帧测试音频特征送入到训练好的神经网络模型，后验概率计算后，最终依据后处理获得整个测试音频片段相应的音频场景标签。

音频场景识别技术原理.png

音频场景识别技术原理图

婴儿哭声检测识别，情感分析可助推识别系统更为人性化

基于音频识别技术前景的不断展望，声联网近期将有一套婴儿哭声检测识别系统——BABAM监控平台面世于众。该系统的核心技术是以哭声检测为前提，利用婴儿啼哭声频谱差异性进行哭声分辨与识别，然后通过评估分析和对比试验，将音频数据进行特征优化与特征提取，再用深度学习的方法模型进行训练和处理，得到的一种音频检测系统和算法模型。

对于这款BABAM哭声监测监控系统，声联网下一步的技术布局，对标婴幼儿家庭远程服务市场，依据婴儿哭声频谱的特征分析与传统音色的经验识别特征模型提取，通过婴儿哭声识别之后的情感分析模型，即时监控了解婴幼儿的情感状况，例如喜怒哀乐或身体不适等突发情况。在技术优势上，全球婴幼儿的音频检测技术只能分辨婴幼儿是否啼哭？声联网倾力打造一款在婴幼儿哭声检测之上的情感分析系统，甚至可以识别和分辨婴幼儿的健康状况。

对于这款产品的科研技术与市场应用价值，亿欧采访了中科院声学所研究员颜永红博士，颜博士对该项技术进行了相关点评。中科院声学研究所，主要从事音频听觉感知、自动语音识别、面向声学应用的大数据分析三个方向的核心技术开发研究，同时也是国内多个行业第一个语音识别应用的核心技术提供商。颜永红博士作为实验室主任，深耕声学研究的音频识别类技术27年，颜博士认为，专业的数据采集与归纳提取制作出的音频识别系统，可以秒杀传统意义上对音频识别的经验之谈。

颜博士告诉亿欧，这款婴儿哭声检测识别系统，在市场的应用空间非常大，仅仅是婴儿哭声检测这项技术，市场上就有用户需求。除却家政专护外，当家长与婴幼儿不在同一房间内的时候、当家长在沉睡期而孩子处于哭闹状态等其他情况时，家长都需要借助这套婴幼儿哭声检测系统，及时监测与掌握孩子情况。

此外，该项系统能检测10米以内的哭声识别，技术永远不会只服务于高端用户，对于中低端家庭实用性可达保障。而在技术研发上，频谱特征的提取是个难点，频谱特征需要依靠采集大量的音频数据，然后进行频谱分析和特征提取，对于音频数据采集的刚需，也是声联网现在所面对的一个重要难点。

布局智能终端+服务平台，即时在线跟踪

基于声联网在音频数据采集方面的需求，为获得大量的数据支撑，声联网采取了在“智能终端”与“服务平台”上的战略布局。通过“智能终端”主动打入消费市场，将核心算法植入婴幼儿监护类产品中，深入且全面打造BABAM监控平台，从而投入至千家万户的家庭中去。目前来看，产品量产与市场拓展是声联网聚焦的重点和发力的方向。产品方面主要是一套基于声波的智能硬件终端上的声音检测软件系统，声联网CEO何宇新提到，今年十月份将会在京东发起众筹。

何总告诉亿欧，随着大家对远程辅导需求的重视，对于在家庭中普遍落地的“轻松育儿”、“科学育儿”等协助方式，音频识别作为辅助技术应用的落地更为宽广。在产品应用普及上，采用标准化与定制化并进的服务模式。

当前，声联网与两家育儿公司进行了战略合作：

与小米生态链企业机器岛公司达成战略合作，声联网核心算法的SDK将持续输出至米兔品牌婴幼儿的智能产品中，使其具备对婴幼儿状态的监护功能。此外，利用倍优天地拥有3000家连锁门店，每年服务数十万新生婴幼儿家庭的客户群体优势，双方共同打造在线智能辅助育儿平台，实现在线感知、智能记录、远程辅导等服务。

在当前的音频市场里，不论是微软、亚马逊、百度、或是阿里等企业都在深入研究结构化的语音识别技术，而声纹识别是应用性最强适用性最广的一种识别技术，可应用在口语评测、安防反恐、侦探识别等重要领域中。如今，声联网打造在线智能专业服务幼儿平台，能够即时关注婴幼儿情感健康状况，旨在为婴幼儿机构、月儿会所、家政服务公司赋能，值得我们共同期待！

【返回】

QQ咨询

电话咨询