数据被提供给这个网络的输入节点,然后修改并提供给其他节点,然后再修改并提供给其他节点,如此循环。当一个神经网络被开始训练,它就会不断修改操作,以便改善特定任务的性能。 实际上,科研人员的网络有两个分割的网络组成:一个以图像作为输入,另一个则将声谱图作为输入,随着时间的推移表达信号振幅的变化。每个网络最上层的输出是一个1024维向量的网络——一个包含1024个数字的数列。 该网络的最后一个节点是两个向量的点积,也就是说,它将相应向量中的元素相乘,然后相加,最后成为一个数字。在训练过程中,该网络必须尝试在音频信号与图像相符时使得点积最大化,在不匹配时点积最小化。 对于每一个科研人员研究的声谱,它可以识别出点积的峰值极点。在试验中,这些极点对于挑选出那些精确的图像标签非常可信。比如说,“棒球”这个词,系统会选择一个棒球投手正在投球,或者“草”和“地”这两个字,系统会选择一片草地。 目前正在进展的过程中,科研人员已经改进了系统,以便该系统能够挑选出单个词语的声谱,并且识别出刚好对应于这些词语的区域。 (责任编辑:本港台直播) |