到我们这个场景里面,其实也是很有意思说,我们这批数据也是带标签的,是什么?学生答题的数据。他答题的对错我们是知道的,学生答题的行为,答题的对错,这些数据就是你说的这种另一种形式的数据,另一个框架内的数据。 而且我们也发现,随着产品的上线,用户数据越来越多,我们这个是越来越准的,这个准度怎么衡量?就是我们的AI能够预测一个学生答题的对错。现在比如我题库里面有一万道题,你做了大概一百道题以后,我基本上能够以超过90%的准确率,预测你其他9990道题里面,你虽然没做,但是我能知道你做对还是做错你知道吧。 我们得看到,随着我的用户进来的数据越来越多,我这个预测准确性也是在不断攀升的,就是说这个智能是在不断进化的。 PW:后来加入你们的那个语言学家Lance Knowles博士主要负责什么工作? 林晖:他跟我们合作的一个原因就是,他试用了英语流利说后觉得我们上的语音评分是他用过的世界上最好的。他看到我们的技术就非常想跟我们合作,他现在是我们的一个顾问。我们结合他的理念和我们的技术,想把把懂你英语的模式发挥得淋漓尽致。其实现在用户用下来的感觉就是,一开始可能有写不习惯,但是其实慢慢发现,这真的是管用的,我觉得这是语言的核心。 PW:你们还推出了一个“雅思流利说”的付费产品,这个产品背后是用的什么技术呢? 林晖:雅思这件事情其实是沿着我们整个技术脉络的一个自然的产品。我们希望用AI的技术,让教育,比如说语言学习这件事情更高效,把它的效率提升。那么你要做到效率提升这件事情,首先得把学习的过程数字化、量化。到语言学习这一块,前面很重要的就是,对这种口语能力的一个评判的一个数字化,一个量化,这就是很自然的一个技术重点。 后面的自适应是在你做了数字化、量化以后,怎么样去优化它的效率,怎么样去编排你的内容,怎么样选择这个策略,相当于决策的过程。前面这部分语音评测、语音评价,相当于是感知的部分。这整个技术的脉络是这样的。 当我们把感知这一块做得足够好的时候,其实很自然的出来的产品就是雅思流利说,我们能够给考雅思的用户,考生,提供一定的价值,能够帮他们解决像刚才之前跟你聊的那些痛点,就是模考难,想得到反馈难,周期长且贵。我们用这样的技术来解决这样的问题。 这里面从技术上来看,脉络上其实跟我们原来想的是一致的,这是一个自然的产品出来。像之前说的,比如说从跟读里面积累语音识别的语料,最能听懂中国人说英语的识别引擎,都是这个基石。而在这之上做一些自然源处理,自然源理解的技术,给出反馈。这部分我们觉得是很还蛮有意义,蛮有价值的。 PW:能不能讲一下模拟雅思考试的整个评判过程? 林晖:雅思的口语考试呢,是现在公认的能够比较客观、比较全面地衡量一个人口语水平的考试,它是一个真人考试,一个考生进来,你是面对一个真人考官,真人考官会问你问题,你根据他问的问题去回答。是一个真正的语言交流的过程,考察的是你的语言的使用能力。 这里面对于雅思考生来说,他其实很难去做一个模拟,是因为他需要真人,你需要有这样评分能力的老师,这样的老师毕竟少。所以雅思流利说就是从这个角度切入,我们提供这样一个模考成绩,并且给你一个评分的报告,这个报告首先够精准,第二个它能够给你一些具体的建议和反馈所以我们在做雅思流利说关注的技术上的指标其实有好几个,第一个是评分的一致性,评分是否足够精准跟你去真的雅思拿到的分数一样的。 而这个是怎么来做的?这里面我也觉得是AI能够做得比较好的地方,就是AI比较客观。人难免主观,人难免会有误差,会犯错。尤其是对于这种没有标准答案的测试。你写个作文,满分就还是比较主观的东西,你让人去改,虽然有一定的雅思评分标准,但是人去改的时候,难免会有一些主观,会有一些误差。 (责任编辑:本港台直播) |