为了克服这个问题,我们团队创建了一个大型的视频数据集 eVDS(https://engineering.purdue.edu/elab/eVDS/),可用来直接从视频数据上训练新的(递归和反馈)网络模型。 PredNet PredNet 是被设计来预测视频中未来帧的网络。在这个博客中可以看到一些例子,博客链接:https://coxlab.github.io/prednet/。 PredNet 是一个非常聪明的神经网络型,在我们看来,它将在将来的神经网络中起着重要的作用。PredNet 学习到了超越监督式 CNN 中的单帧图片的神经表征。 PredNet 结合了生物启发的双向 [人脑模型](详见论文《Unsupervised Pixel-prediction》,https://papers.nips.cc/paper/1083-unsupervised-pixel-prediction.pdf)。它使用了 [预测编码和神经模型中的反馈连接](详见论文《Neural Encoding and Decoding with Deep Learning for Dynamic Natural Vision》,)。下面是 PredNet 模型以及一个具有两个堆叠层的例子:
PredNet 结合了生物启发的双向人脑模型 这个模型有以下这几个优点: 可使用无标签的数据来训练 在每一层嵌入了损失函数来计算误差 具有执行在线学习的能力,通过监控错误信号,当模型不能预测输出的时候,它会知道需要学习误差信号 PredNet 存在的一个问题是,对第一层的一些简单的基于运动的滤波器而言,预测未来输入的帧是相对容易的。在我们所做的 PredNet 的实验中,PredNet 在重建输入帧的时候学会了在重建输入帧时达到很好的效果,但是更高层不会学到较好的表征。事实上,在实验中更高层连简单的分类任务都解决不了。 事实上,预测未来的帧是不必要的。我们愿意做的就是去预测下一帧的表征,就像 Carl Vondrick 做的一样。详见论文《Anticipating Visual Representations from Unlabeled Video》,链接:https://arxiv.org/abs/1504.08023。 通过观察物体的运动来学习特征 最近的这篇论文通过观察视频中物体的运动来训练无监督模型(《Learning Features by Watching Objects Move》,https://people.eecs.berkeley.edu/~pathak/unsupervised_video/)。运动以光流的形式被提取出来,并被用作运动物体的分割模板。尽管光流信号并没有提供任何一个接近良好的分割模板,但是在大规模数据集上的平均效果使得最终的网络会表现良好。例子如下所示:
这项工作是非常激动人心的,因为它遵循关于人类视觉皮层如何学习分割运动物体的神经学理论。参见论文《Development of human visual function》,链接:。 未来 未来需要你们来创造。 无监督训练仍然还是一个有待发展的主题,你可以通过以下方式做出较大的贡献: 创建一个新的无监督任务去训练网络,例如:解决拼图问题、对比图像补丁、生成图像等...... 想出能够创造很棒的无监督功能的任务,例如:像我们人类视觉系统的工作方式一样,理解立体图像和视频中什么是物体、什么是背景。 原文链接:https://medium.com/intuitionmachine/navigating-the-unsupervised-learning-landscape-951bd5842df9 读者福利:即日起至 GMIS 2017 大会当天,读者在头条文章下留言,机器之心会在次日选出最专业或最有见解的一条评论赠送 GMIS 2017 双日票一张! (责任编辑:本港台直播) |