与传统的电视广告、户外广告采买相比,流量作弊一直以来被看作互联网广告特有的弊病。随着网络数据技术的发展进步,流量作弊也呈现出规模化、机器化、产业化的趋势。方式包括通过人工、机器制造虚假流量,或者通过技术手段窃取他人流量,偷梁换柱。反作弊需要强大的数据支撑,包括丰富的数据存储,大量的项目积累和经验积累,广告不同环节的数据触及等。该题目需要参赛者基于IP,cookie,设备ID,访问时间序列,UA信息分布等行为属性来建立一个模型,区分正常用户曝光记录与作弊行为记录,并进行标记。 3.基于视角的领域情感分析 情感分析是网络舆情分析中必不可少的技术,基于视角的领域情感分析更是情感分析应用于特定领域的关键技术。在对句子进行情感分析时,站在不同的视角,同一个句子的情感倾向判断结果将有所差别。本赛题意在情感分析任务中,站在数据使用者的角度进行特定的情感分析,使数据分析的结果更具可用性。本赛题可以细分为“视角抽取”与“基于视角的情感分析”两部分。 4.鸡肋还是实惠?O2O优惠券使用预测 以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。 个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。本次大赛为参赛选手提供了O2O场景相关的丰富数据,希望参赛选手通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。 5.大数据精准营销中搜狗用户画像挖掘 在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。 在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。 6.自动驾驶场景中的交通标志识别 交通标志的检测是一项非常有挑战的任务,精确的检测对后续识别,辅助定位导航起着决定性的作用。交通标志的种类众多,大小、角度不依,本身就很难做到精确检测,并且在真实的行车环境中,受到天气、光照等因素的影响,使得交通标志的检测更加困难。我们将提供完全真实场景下的图片数据用于竞赛训练和测试,使得开发出来的算法能够实际应用在自动驾驶中。 7.客户用电异常行为分析 为进一步提高社会用电的安全,保障发电企业、电网企业和用电客户的正常利益,尽可能的杜绝偷窃电行为的发生。本赛题基于国家电网公司提供的关于用户用电量、电能表停走、电流失流、计量们打开灯计量异常情况、窃电行为等相关数据,以及经过现场电工人员现场确认的窃电用户清单,希望参赛者利用大数据分析算法与技术,发现窃电用户的行为特征,形成窃电用户行为画像,准确识别窃电用户,以帮助系统更快速、准确地识别窃电用户,提高窃电监测效率,降低窃电损失。 8.客户画像 经过多年的发展与沉淀,目前国家电网积累了全网4亿多客户档案数据和海量供电服务信息,以及公司营销、电网生产等数据,如何从海量的用户数据中发掘对停电事件、供电稳定相关事件具有敏感性的客户群体,atv,并对客户停电敏感度进行量化排名对于电网企业的客户满意度、电力服务水平、用电客户黏性的提升以及供电抢修工作的路线优化都有着至关重要的作用。 参赛者需要以电力用户的95598工单数据、供电抢修服务数据、停电信息数据为基础,结合对受理工单文本内容的分析挖掘,建立客户停电敏感度模型,对客户对于停电事件的敏感程度进行量化分析,确定用户对停电事件是否敏感。 9.基于多源数据的青藏高原湖泊面积 本赛题希望通过研究青藏高原湖泊面积变化的多种影响因素,构建青藏高原湖泊面积预测模型。 (责任编辑:本港台直播) |