MIT 之前发过一篇从未标记视频中学习声音表征的论文(SoundNet),近期他们开源了 SoundNet 的实现代码。相关论文可点击「阅读原文」下载。 SoundNet 代码地址:https://github.com/cvondrick/soundnet
摘要:通过有效利用大量从野外收集的未标记声音数据,我们学习了丰富 的自然声音表征。使用两百万未标记的视频,我们利用时间和声音的自然同步来学习声学表征。未标记视频的优势是在经济有限情况下也能获得大规模的、包含有用信号的数据。我们提出一种 student-teacher 训练流程,atv,使用未标记视频作为桥梁,能将来自好的视觉识别模型的有识别力的视觉知识迁移到声音形态。在声学场景/识别分类基准上,我们的声音表征对前沿表现有了极大的改进。可视化数据表明一些高层次语义可在该声音网络中自动生成,即使它是在没有 ground truth 标记的情况下训练的。
©本文由机器之心编译,直播,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |