在你对着美丽的女主播流口水时,偶尔会看到屏幕上冒出一条不和谐的弹幕,例如:“看艾薇;加XXXXX。” 对于这种不健康的信息,你可能会感到非常愤怒,然后按照号码加一下。。。 这样的观众“福利”,对于直播平台 CEO 来说却是不折不扣的灾难。每一个这样的弹幕,都把他向“快播王欣”的角色推进了一步。更何况时不时出现的“造人”直播,恨不能导致“有关部门”直接把直播平台干掉。 “合规性”这个并不性感的词,在某些时刻成为了直播平台的生死线。从这个角度看,直播反垃圾信息成为了一种刚需。雷锋网采访到了同盾科技的小伙伴,对于直播行业的反欺诈和反垃圾,他们有一些独特的理解。 会“变脸”的敏感词 弹幕里这些影响社会主义和谐社会建设的词汇,统称为“敏感词”,而这些让人心旌动摇的信息,就是“敏感信息”。同盾科技反欺诈及基础产品总监祝伟根据发布人群和传播形式的特点,给直播弹幕的敏感信息做了个分类: 涉黄涉政言论:通常是无组织,由普通直播观众发起。 虚假谣言:通常由水军组织,作为“节奏”发动机,带动一般观众,快速形成热点。 垃圾广告:通常都是黑产组织,发布广告内容。会和直播平台的风控系统形成强对抗。 祝伟说,现在越来越多出现人气很旺的直播场景。在其中往往聚集了几万甚至更多人。这就像现实当中众人聚集的广场,不当的言论会起到煽动的作用。 数万人、数十万人在网络上聚集狂欢,这种情况正在加速出现。在9月27日举行的小米发布会,通过爱奇艺平台对外直播。这场发布会聚集了大量的观众。在直播过程中,不时有“看A片加微信”的字幕从雷军的脸上划过,让人有一种“碉堡了”的错觉。 弹幕示意图 对于爱奇艺这样的平台来说,显然会有基本的反垃圾弹幕功能。但是“漏网之鱼”数量依然庞大。这就要归罪于反垃圾引擎的智能性了。因为从“漏网弹幕”的形式来看,大多是敏感词的“变体”,即在敏感词中间加入符号,用同音字、近义字代替敏感词。 有关敏感信息的屏蔽,难度并不小。这是一个从论坛时代就困扰各大平台的难题。祝伟举了几个例子: 很多情况下,各大平台都需要屏蔽“鹏”这个人名,但是发弹幕者会用“月月鸟”尝试代替“鹏”字。这种方法被用在很多汉字上。 而事实上还存在另外一种情况。例如在论坛里经常出现的“进群交流”这样的留言,本来是正常的留言,却很容易因为中间两个字而被关键词系统错杀。 雷锋网想说,汉语的博大精深真是让人跪服得妥妥的。 在这种情况下,一个“厉害”的垃圾信息屏蔽系统,就涉及到语义分析功能。语义分析是人工智能的一个重要的分支技术,简单说来就是消除掉词语的歧义,给一个确定的句子以语义理解。 语义分析这门技术其实已经被用在诸多领域,但是由于人工智能发展程度的限制,使得“通用型”的语义分析可用性不理想。不过祝伟告诉雷锋网, 语义分析如果局限在特定的领域,就可以针对这个领域做大量的优化,从而大大提高识别的准确性。 他的话通俗来说就是:在弹幕上发垃圾信息,是有套路的。 祝伟表示,死磕直播垃圾弹幕的场景中,一套语义模型是必要的。而模型里包含的要素,就是“样本”“规则”“数据”。随着时间的演进,atv,会产生新的“黑话”,广告的形式和语句也会发生“进化”。但是通常这种变化都是有潮流可循的。也就是说,只要把最新出现的垃圾弹幕不断加入语义模型,系统就会自动演化出对这类弹幕的识别能力。 就是在这种不断和垃圾弹幕作斗争的“猫鼠游戏”中,可以达到越来越强的反击能力。这像极了人类的抗生素和病毒的对抗过程。 人:一切违规的根源 如果你仔细思考:当我们反垃圾弹幕的时候,我们在反什么? 你可能会得出这样的结论:我们在反对“不按规矩出牌”的人。 ,atv (责任编辑:本港台直播) |