码报:【组图】视频行业：生之困境中的异军突起——保利威视访谈(2)_本港台直播_J2开奖直播

　　还有，直播是生产课件非常重要的方式。直播完成之后课程就那么扔掉了，对资源是一种浪费。现在直播平台借助保利威视的录播系统、加密系统，直播完的课程马上转入到录播系统，这是非常非常多的直播系统做不到的。

　　虚拟现实

　　Facebook 创始人扎克伯格认为，媒体的重心从文字开始，逐渐过渡到图片，然后进阶到影视，最终拓展到虚拟现实。每前进一步，内容的维度就更加丰富。

　　如今火遍天的VR技术，被保利威视主要应用于两个教学领域：

　　厨师培训。可以让学员感觉到第一视角是它的大师傅怎么样布局配料、炒菜时的感觉是什么，让学员对高手的感受有具体的了解。

　　医学手术培训。这是医疗手术培训的痛点，手术室是相对比较狭小或要求没有人打扰的环境，不可能找个人去看怎么样做手术。主刀医生戴着全景摄像头设备，让远程学员体验到当时的场面，而且不会干扰手术的进行。

　　传统的视频，即使高清1080P的视频，视频传输量相对VR来说小很多，基本是1/4。医疗场景是个刚性需求，而医学要求非常清晰的高精度画面。VR数据流量大、造成的码率过大是现在遇到的一个问题。在私有网这个问题并不明显，但在公有网如何快速实现高清、远程、身临其境的VR医疗教学现在还是一个巨大的技术挑战。

　　谢晓昉认为保利威视的技术其实是连接器，用来连接内容制造者以及VR播放者的解决方案。内容制造者生产各种各样的视频，企业、教育机构;保利威视让设备厂家以及内容生产商通过他们的云视频实现在线VR视频播放，相当于是个VR视频在线播放连接器。

　　拆解视频

　　一般来说，所谓智能首先在识别，识别各种各样的信号。最初级的识别是语音识别，更难的是图像识别，最难的是视频识别。

　　众所周知，视频数据是用非结构化的，我们可以理解为视频是“一坨存在”。那你可能要问，视频是一个完整结构，atv，为什么在保利威视眼里，视频数据是可以被分解的?

　　谢晓昉表示分拆的核心就在于音频识别引擎。文字化之后可以被检索，且能和视频内容进行关联。识别率第一依赖算法，第二依赖于训练库的大小。机器学习，某一个领域文件越多，识别的机会越多，识别率越高。保利威视有2700万个视频，分布在不同的教育类别里，比如建筑师培训，医学考证培训，公务员培训…这些知识库的积累量很多，通过他们的算法可以让视频播放之后，进行音频识别。第二，训练。识别完之后不是单纯形成内容，而是内容和时间戳是关联起来，这样可以让机构快速定位知识点，把这些知识点通过数据方式进行结构分类、多维度分类。

　　还有声纹识别，和语音识别在一起。比如在特朗普的音频里，知道他的语音识别特征，会在几十万或上百万视频里找到那个人的声音。相当于在深度学习和人工智能领域，视频数据结构化以后，进行大数据挖掘。还不是很明白?想象当你想找一个人，通过摄像头的截取图像就能识别人脸。原理就是把人脸数据变成可以被快速被检索出来字符型数据。而声纹从根本意义上和人脸识别原理是一样的，只是处理的是音频数据。目前，保利威视和中大的博士团队进行的合作中，从音频识别，到图像识别，再到视频识别，还有VCR光学识别，都已经有比较大的进步，声纹识别已经比较成熟。

　　深挖数据

　　保利威视现在有细分的归类数据库：一是行为数据，二是视频内容数据(结构化数据)。

　　行为数据，保利威视作为基础视频的云服务提供商，会向B端用户输出播放器，B端用户播放视频会产生很多操作，比如手机的停留、暂停、拖拽、反复观看，这些都是行为数据，每一条都会记录到后台非关系型数据库里。每天有超过1亿数据存在我们后台。这些数据能对学员的行为进行分析，如果视频某一段学生不停观看视频，说明这个视频要么太难懂要么老师没有讲清楚。还有课件视频的完成率，比如一个10分钟的视频有80%的人看完了80%的内容，或者一个视频80%的人看完了50%的内容，那么很明显，atv直播，这个视频的质量是有差异的。通过这些数据的对比，能够分析出课件的质量、知识点的难度，以及其他教学指标。

　　由于云识别而产生大量结构化的视频内容的数据。虽然这些资源资产属于用户，但依旧可以使得保利威视能够帮助用户，在这么大的库里让他们识别数据更精确。

(责任编辑：本港台直播)