拿到音频数据之后,第一步是音频预处理(流媒体缓存、断句切分、统一格式、降噪处理),然后是内容检测(语音识别、关键词检索、语音识别)。除了内容审核之外,还有其它的检测,例如直播平台会对当前主播身份的确认、广告检测、语种识别等。 精彩问答 Q:从极限元的方案来看,音频审核还存在什么Bug,它适用于哪些领域? A:Bug肯定是有的,主要是目前技术的局限性,识别的准确率还是问题。在视频直播、呼叫中心的应用场景涉及到的比较多,只要能产生大量音频数据的行业都可以使用音频审核技术。 Q:音频审核是否是人工+机器结合的审核方式?哪些部分必须要人工来处理?标准是怎样的? A:机器目前只是粗检索,如果要100%的准确率还是需要人工来完成。 Q:语音识别和声纹识别部分对硬件的要求很高,那一般情况下需要配套的硬件方案吗? A:这是有的,我们通常会推荐一些硬件方案,而且不同的应用场景也会有不同的推荐。例如,用户在私有云端部署,对计算量要求很高但对带宽的需求很小,如果在云端部署,对带宽有更高的要求。 Q:音频审核对降噪有做哪些处理? A:主要是为了减少直播中存在的声道干扰和背景声的干扰,例如不同麦克风回声,还有一些已知的噪声信号,我们会针对这些做一些预处理。 Q:关键词是怎么设定的?改变关键词的话,对整个系统方案影响很大啊。 A:关键词的设定目前还是人工设定为主,机器不能自动提取关键词。例如上文提到的电信诈骗,里面的关键词也是人工筛查得出的。 Q:系统同时结合音频和视频方案最难的地方在哪里? A:如果是同一段视频既要图像检测又要音频检测,在时间点的同步上是一个很大的难点,因为语音识别、图像识别是两套系统。 (责任编辑:本港台直播) |