意图识别模块:基于 GBDT 的 softmax/TF-IDF/sent2vec 的算法。即把 TF-IDF、word2vec 扩展词、sent2vec 作为特征,训练一个基于 GBDT 的 softmax 互斥三分类模型。其 softmax 训练数据来自易车网的「选车」问答板块 30 万+问题数据、「汽车知识」问答板块 6 万+ 问题数据和微信聊天记录里的 3 万+闲聊数据。 属性提取模块:基于中文分词/词性标注/依存句法/word2vec/模板方法。中文分词作为基础,依存句法用于识别用户的肯定、否定等态度表达,词性标注+word2vec+模板规则抓取用户表达中的车型、价格、偏好等 input 属性。其 word2vec 数据从各类汽车资讯爬取了 3GB、从搜狗搜狐新闻中爬取了 4GB,其中包含了 11.9 亿多词和 145 万多不同词。其分词词典来源于通用词典+汽车专业词典+人工补充。 语义匹配搜索模块:采用了改进版 CDSSM(卷积深层语义相似模型)/elastic search API。用户 query 与问题库问题进行匹配时,先通过 elastic search 进行初选,在通过改进版 CDSSM(卷积深层语义相似模型)匹配问题库中近似度最高的问题。其 CDSSM 数据来自于近 5000 万条搜狗用户点击日志。 推荐系统:采用了人工打分+强规则的方式。当抓取到用户足够的需求、偏好信息后,采用强规则筛选+人工权重打分的方式对结果进行抓取和排序。其数据来自汽车之家汽车口碑打分评论数据 30 万+条,汽车基础信息数据库 2 万+ 条。 2.BAL-cheeps 团队简介:我们来自上海交通大学,背景不尽相同,但是因为同样的理想走到一起。如我们团队的 logo 所示,我们就像一只正破壳而出的雏鹰,发出第一声啼鸣——不鸣则已,一鸣惊人。 成员介绍: 吴学阳(组长):「我感到奇妙的是:事物何以总是集成一体。」 戴冠宇:用心打造产品,做一只快乐的设计狮 尚靖桓:我的世界 码上成真 王瑞扬:光电其骨 罗曼其心 胸有精技 手抚青丝 作品介绍:招聘面试耗费巨大,人力物力时间成本高昂,而且效率到,招聘结果也很容易受到面试官个人看法的影响。让 bot 接替一部分招聘工作能有效地节省成本和提升效果。HRobot 是一款智商与情商兼具的机器人面试官。既能够帮助企业降低面试活动成本、提高面试效率和准确度;还能为求职者提供更公平的机会,也能帮助减少奔波的麻烦。 技术介绍:
工作流程 专业问答:从自然语言的教材、讲义甚至网帖中识别和抽取知识点,构建知识库。利用上下文相关自然语言生成技术将知识库中对应的知识合成为自然语言,对面是这进行发问考核。不同知识点以树的形式进行存储。 联想追问:建立了提问的深度和广度两个方向的动态决策模型。通过挖掘关键词,进行提问决策。 情感引导:通过面试者的语速、反应速度、回答内容等评估和引导情绪。使用经验模型来自整合整个模型保证系统的流畅度和用户友好度。运用深度强化学习训练一个善解人意的对话机器人,而且它的「情商」会越来越高。 提取标签:运用改进的分类算法,对几个归类进行重划和增删。还运用了关键词提取技术,自动给面试者加上一些标签,比如:精通 C++、算法基础扎实等。 维度打分:使用自然语言处理技术,对面试者各个维度问题的回答进行分析并且打分,形成最终的面试者的智能分析表。 3.DeepLaw 团队简介:热爱数据、热爱学习,希望结识更多给力的朋友,互相交流、一起进步。 成员简介: 张宏伦:上海交通大学直博在读,数据爱好者。 (责任编辑:本港台直播) |