用不同类型的数据集进行练习。练习你不熟悉的问题,这能推动你在寻求解决方法的过程中技术得到进步。了解数据集的不同特性,例如: · 不同类型的监督学习,例如分类和回归。 · 不同规格的数据集,实例(instance)的数量从小于十个、数十、数百到数千。 · 属性(attribute)的数量不同的数据集,从小于十种、数十种、数百种到数千种。 · 属性类型不同的数据集,包括实数、整数、分类数、序数、混合等。 · 不同的领域,能迫使你快速了解新的问题。 使用UCI机器学习资料库(UCI MachineLearning Repository) 上面有最常用、最好理解的一些数据集,对入门来说非常好。 ·了解更多:PracticeMachine Learning with Small In-Memory Datasets from the UCI Machine LearningRepository 利用机器学习竞赛,例如Kaggle Kaggle上的数据集通常更大型,建模需要更多准备。 这篇文章列举了一些最常用的数据集: Tour ofReal-World Machine Learning Problems 用你自己设计的问题练习 为适合你自己的机器学习问题收集数据,你会发现这非常有帮助。 第5步:做一个作品集 为你完成的项目建一个作品集,并好好利用。 在用数据集练习并不断进步的过程中,创建一个半正式的输出集合,总结你的发现。 · 你可以上传代码,并在readme文档中总结。 · 你可以在博客中发表你的结果。 · 你可以做成幻灯片。 · 你也可以做一个小视频传到YouTube上。 每一个完成的项目都代表着你的成长作品集的一页。 技巧提示 以下是有关机器学习的一些技巧提示: · 从简单的程序(例如上文推荐的)和简单的工具(例如Weka)开始,有信心之后再进阶。 · 从最简单最常用的数据集入手(如iris flowers 和 Pima diabetes) · 每次应用该程序,尝试做一些改进。 · 发现新方法时,找到把它整合到你的程序中的最佳方式。 · 研究算法,但只研究到能帮助你取得更好结果就够了。 · 向专家学习,研究怎样将专家的方法加入到你的程序中。 · 像研究预测建模问题那样研究你的工具,充分利用它们。 · 不要在简单的问题中耽搁,不断挑战更难的问题。 · 专注于清晰呈现的结果,结果越清晰,你的作品集的作用越大。 · 加入论坛和问答网站社区,提问并回答问题。 总结 这篇文章提出了一个简单的5步方法,你可以用它来开始机器学习的入门,并在应用中不断进步。 虽然方法简单,但只要你确实投入努力,就会得到回报。 我有许多学生正是这样成为机器学习工程师或数据科学家的。
豪华嘉宾阵容,j2直播,共飨 AI 盛宴
7 大院长齐聚新智元智库院长圆桌论坛 (责任编辑:本港台直播) |