简而言之,定位数据的聚类在Spark中可以这样实现,将位置的原始PairRDD转换到一个新的PairRDD,其中元组的键值分别代表用户的ID,和其对应的定位类簇。一旦定位数据被聚类完毕,它可以进一步概括总结,比如确定每个类簇的边界框或轮廓 图2显示了从一个使用Gowalla(用户在特定地点签到分享他们的位置的社交网站)的匿名用户的定位数据中提取的一个示例类簇。图中是佛罗里达地图,特别是开普科勒尔地区,签到的地方会有一个带颜色的点。 事件根据其发生的地理位置被聚类。例如在Estero Bay (暗橙色圆点)漫步、在机场的聚集活动(棕色点)和森尼贝尔岛的聚集活动(绿点)属于不同的聚类(ε设定为3公里,minPoints设置为3)。
图2:从用户的佛罗里达开普科勒尔区域的Gowalla数据集中提取聚类的例子。注意点集合的密度与聚类正确匹配,异常值标记为孤立的黑点。图片来自Natalino Busa。地图重叠:OpenStreet地图。 进一步增强地理定位数据分析 这一分析是围绕地理坐标进行的,但可以很容易地扩展到其他事件属性上,如签到时间、场地类型(餐厅、体育馆、博物馆)或用户的状态。聚类算法还可以将用户社交网络中朋友所生成的事件考虑进来,从而得以应用于一个更大的上下文。 Spark为SQL数据处理提供了一个模块,可用于在运行聚类算法之前运行查询来过滤和收集事件。通过这种方式,数据处理通道可以在Spark上完整地实现SQL和机器学习的统一框架。这种扩展的数据管道对特定类别的事件将提供更准确的聚类结果。 创建一个基于位置的API 服务 Spark 产生的聚类分析结果可以保存在一个数据存储表中。一个API服务可以查询该表,并确定一个新出现的地理位置点是否属于已知的地区。API服务可以根据用户场景触发适当的行为。例如,它可以通过消息向用户告警、发送通知或提供推荐。 结论 我最初的实验表明 Spark 提供了坚实的基础设施在大量的用户和事件上来并行处理和分发机器学习算法。此外,直播,Spark通过在一个数据处理框架结合SQL查询和机器学习,加快了数据驱动系统的开发。 DBSCAN算法与Spark的结合似乎是一种很有前途的方法,可以抽取准确的地理位置模式,并用于开发基于各种场景的数据驱动、基于位置的应用程序,开奖,例如个性化营销、欺诈防范和内容过滤。 【作者简介】Natalino 在荷兰ING集团任职企业数据架构师,他设计了大规模快速数据驱动的应用程序数据解决方案,如个性化营销、预测分析、欺诈检测和安全管理。他是一个全面的数据专家,在可扩展的服务、数据科学和数据处理系统上有丰富的经验。此前,他担任在荷兰的飞利浦研究实验室的资深科学家,在那里他专注于系统级芯片架构、分布式计算和并行化编译器。 新智元招聘
职位 运营总监 职位年薪:36- 50万(工资+奖金) 工作地点:北京-海淀区 所属部门:运营部 汇报对象:COO 下属人数:2人 年龄要求:25 岁 至 35 岁 性别要求:不限 工作年限:3 年以上 语 言:英语6级(海外留学背景优先) 职位描述 负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向 擅长开拓市场,并与潜在客户建立良好的人际关系 深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态 主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力 带领团队完成营业额目标,并监控管理项目状况 负责公司平台运营方面的战略计划、合作计划的制定与实施 岗位要求 大学本科以上学历,硕士优先,要求有较高英语沟通能力 3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作 对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解 具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力 (责任编辑:本港台直播) |