使用公共数据集的实验表明,LightGBM 在效率和准确度方面均优于其他现有的 boosting 框架,并且内存消耗也显著低于其他框架。此外,实验表明,LightGBM 能够通过在特定设置中使用多台机器进行训练来实现线性加速。 LightGBM 有许多功能,值得一试。 Sklearn-pandas Star:763 GitHub地址:https://github.com/paulgb/sklearn-pandas 前面介绍的项目都是通用的机器学习工具包,或是特定算法的实现。这个项目有点不同,它在机器学习任务中发挥着支持性的作用。 Sklearn-pandas 是一个正在开发的模块,它的 GitHub 库介绍中写道,它“在 Scikit-Learn 的机器学习方法和 pandas 风格的数据框架之间架起了桥梁”。 具体来说,它规定了以下两点: 将 DataFrame 的列映射到变换的方法,这些变换以后会重新组合到特征中。 旧的 scikit-learn 版本的交叉验证 pineline 的兼容性垫片(compatibility shim),需要一个pandas DataFrame 作为输入。 这只需要 scikit-learn <0.16.0。这已被弃用,可能会在 skearn-pandas == 2.0 中被删除。 这里的真正用处是将列(columns)映射到变换(transformations)。下面是 GitHub 仓库的一个代码片段:
需要注意的是,前三列是 LabelBinarizer 的输出(分别对应_cat_,_dog_和_fish_),第四列是children 数量的标准值。通常情况下,columns 根据构建 DataFrameMapper 时给定的顺序进行排序。 原文地址: 新智元招聘
职位 执行总编、主编 职位年薪:50万(工资+奖金)-100万元(工资+奖金+期权) 工作地点:北京-海淀区 所属部门:编辑部 汇报对象:CEO 下属人数:20人 年龄要求:25 岁至 40 岁 语 言:专业英语八级以上或海外留学从业背景 职位背景:在IT媒体领域有专业团队管理经验与主流话语权 学历要求:硕士及以上 职位描述: 热爱人工智能和媒体事业; 具有3年以上媒体采编经验,在业内有一定影响力及人脉; 具有原创+编译团队管理经验,善于部门间协作沟通; 对TMT领域有深入理解,对行业趋势有独到的洞察; 英文阅读写作及沟通能力优异; 较强的抗压能力和自驱力,能在竞争激烈的环境下激励团队; 具有创业精神及团队精神,atv,有恒心肯吃苦; 理工科背景优先,有知名企业或知名媒体机构工作经验者优先。 职责 全权负责新智元内容平台策划、生产与运营,对内容质量、用户阅读体验、影响力负责。具体负责完成对内容平台定位和规划,组建并管理采编团队,策划执行重点选题,建立和维护供稿作者资源;监控公众号各项数据指标变动,并以此为基础改进提升内容质量。 (责任编辑:本港台直播) |