码报:【j2开奖】音频检测也能鉴黄？深度解析音频检测背后的技术(5)_本港台直播_J2开奖直播

　　拿到音频数据之后，第一步是音频预处理（流媒体缓存、断句切分、统一格式、降噪处理），然后是内容检测（语音识别、关键词检索、语音识别）。除了内容审核之外，还有其它的检测，例如直播平台会对当前主播身份的确认、广告检测、语种识别等。

　　精彩问答

　　Q：从极限元的方案来看，音频审核还存在什么Bug，它适用于哪些领域？

　　A：Bug肯定是有的，主要是目前技术的局限性，识别的准确率还是问题。在视频直播、呼叫中心的应用场景涉及到的比较多，只要能产生大量音频数据的行业都可以使用音频审核技术。

　　Q：音频审核是否是人工+机器结合的审核方式？哪些部分必须要人工来处理？标准是怎样的？

　　A：机器目前只是粗检索，如果要100%的准确率还是需要人工来完成。

　　Q：语音识别和声纹识别部分对硬件的要求很高，那一般情况下需要配套的硬件方案吗？

　　A：这是有的，我们通常会推荐一些硬件方案，而且不同的应用场景也会有不同的推荐。例如，用户在私有云端部署，对计算量要求很高但对带宽的需求很小，如果在云端部署，对带宽有更高的要求。

　　Q：音频审核对降噪有做哪些处理？

　　A：主要是为了减少直播中存在的声道干扰和背景声的干扰，例如不同麦克风回声，还有一些已知的噪声信号，我们会针对这些做一些预处理。

　　Q：关键词是怎么设定的？改变关键词的话，对整个系统方案影响很大啊。

　　A：关键词的设定目前还是人工设定为主，机器不能自动提取关键词。例如上文提到的电信诈骗，里面的关键词也是人工筛查得出的。

　　Q：系统同时结合音频和视频方案最难的地方在哪里？

　　A：如果是同一段视频既要图像检测又要音频检测，在时间点的同步上是一个很大的难点，因为语音识别、图像识别是两套系统。

(责任编辑：本港台直播)