那如何获取数据和项目呢?一个捷径就是积极参加国内外各种数据挖掘竞赛,数据直接下载下来,按照竞赛的要求去不断优化,积累经验。国外的Kaggle和国内的DataCastle以及阿里天池比赛都是很好的平台,你可以在上面获取真实的数据和数据科学家们一起学习和进行竞赛,尝试使用已经学过的所有知识来完成这个比赛本身也是一件很有乐趣的事情。和其开奖直播数据科学家的讨论能开阔视野,对机器学习算法有更深层次的认识。 有意思的是,有些平台,比如阿里天池比赛,甚至给出了从数据处理到模型训练到模型评 估、可视化到模型融合增强的全部组件,你要做的事情只是参与比赛,获取数据,然后使用这些组件去实现自己的idea即可。具体内容可以参见阿里云机器学习文档。 3.6 自主学习能力 多几句嘴,这部分内容和机器学习本身没有关系,但是本港台直播们觉得这方面的能力对于任何一种新知识和技能的学习来说都是至关重要的。 自主学习能力提升后,意味着你能够跟据自己的情况,找到最合适的学习资料和最快学习成长路径。 3.6.1 信息检索过滤与整合能力 对于初学者,绝大部分需要的知识通过网络就可以找到了。 google搜索引擎技巧——组合替换搜索关键词、站内搜索、学术文献搜索、PDF搜索等——都是必备的。 一个比较好的习惯是找到信息的原始出处,如个人站、公众号、博客、专业网站、书籍等等。这样就能够找到系统化、不失真的高质量信息。 百度搜到的技术类信息不够好,建议只作为补充搜索来用。各种搜索引擎都可以交叉着使用效果更好。 学会去常见的高质量信息源中搜索东西:stackoverflow(程序相关)、quora(高质量回答)、wikipedia(系统化知识,比某某百科不知道好太多)、知乎(中文、有料)、网盘搜索(免费资源一大把)等。 将搜集到的网页放到分类齐全的云端收藏夹里,并经常整理。这样无论在公司还是在家里,在电脑前还是在手机上,都能够找到自己喜欢的东西。 搜集到的文件、代码、电子书等等也放到云端网盘里,并经常整理。 3.6.2 提炼与总结能力 经常作笔记,并总结自己学到的知识是成长的不二法门。其实主要的困难是懒,但是坚持 之后总能发现知识的共性,就能少记一些东西,掌握得更多。 笔记建议放到云端笔记里,印象笔记、为知笔记都还不错。这样在坐地铁、排队等零碎的时间都能看到笔记并继续思考。 3.6.3 提问与求助能力 机器学习的相关QQ群、论坛、社区一大堆。总有人知道你问题的答案。 但是大多数同学都很忙,没法像家庭教师那样手把手告诉你怎么做。 为了让回答者最快明白你的问题,最好该学会正确的问问题的方式:陈述清楚你的业务场景和业务需求是什么,有什么已知条件,在哪个具体的节点上遇到困难了,并做过哪些努力。 有一篇经典的文章告诉你怎样通过提问获得帮助:《提问的智慧》,强力推荐。 话锋犀利了些,但里面的干货还是很好的。 别人帮助你的可能性与你提问题的具体程度和重要性呈指数相关。 3.6.4 分享的习惯 本港台直播们深信:“证明自己真的透彻理解一个知识,最好的方法,是给一个想了解这个内容的人,讲清楚这个内容。”分享能够最充分地提升自己的学习水平。这也是本港台直播们坚持长期分享最重要的原因。 分享还有一个副产品,就是自己在求助的时候能够获得更多的帮助机会,这也非常重要。 ◆ ◆ ◆4. 相关资源推荐 文章的最后部分,本港台直播们继续放送干货。其实机器学习的优质资源非常多。博主也是翻遍浏览器收藏夹,也问同事取了取经,整合了一部分资源罗列如下: 4.1 入门资源 首先coursera是一个非常好的学习网站,集中了全球的精品课程。上述知识学习的过程都可以在上面找到合适的课程。也有很多其开奖直播的课程网站,这里本港台直播们就需要学习的数学和机器学习算法推荐一些课程(有一些课程有中文字幕,有一些只有英文字幕,有一些甚至没有字幕,大家根据自己的情况调整,如果不习惯英文,基础部分有很多国内的课程也非常优质): 微积分相关 Calculus: Single Variable Multivariable Calculus 线性代数 Linear Algebra 概率统计 Introduction to Statistics: Deive Statistics Probabilistic Systems Analysis and Applied Probability 编程语言 Programming for Everybody:Python DataCamp: Learn R with R tutorials and coding challenges:R 机器学习方法 Statistical Learning(R) machine learning:强烈推荐,Andrew Ng老师的课程 机器学习基石 机器学习技术:林轩田老师的课相对更有深度一些,把作业做完会对提升对机器学习的认识。 自然语言处理:斯坦福大学课程 日常阅读的资源 @爱可可-爱生活的微博 机器学习日报的邮件订阅等。 4.2 进阶资源 有源代码的教程 scikit-learn中各个算法的例子 《机器学习实战》 有中文版,并附有python源代码。 (责任编辑:本港台直播) |