项目:探索泰坦尼克号乘客存活情况
在 1912 年,泰坦尼克号巨轮在首次出航时撞上了冰山并沉落到海底,乘客和船员几乎无一幸免。在此引导项目中,我们将研究一小部分泰坦尼克号乘客名单,判断哪些特征最适合预测乘客是否存活下来。要完成此项目,你需要实现几个条件预测并回答下面的问题。我们将根据你的代码完成情况和问题答案评估你提交的项目。
使用决策树探索泰坦尼克号乘客存活情况
在引导项目中,你研究了泰坦尼克号存活数据并能够对乘客存活情况作出预测。在该项目中,你手动构建了一个决策树,该决策树在每个阶段都会选择一个与存活情况最相关的特征。幸运的是,这正是决策树的运行原理!在此实验室中,我们将通过在 sklearn 中实现决策树使这一流程速度显著加快。
项目: 预测波士顿房价
项目概述: 波士顿房地产市场竞争激烈,你想成为该地区最好的房地产经纪人。为了与同行竞争,你决定利用一些基本的机器学习概念来帮助你和客户为他们的家寻找最佳销售价格。幸运的是,你现在拥有一个 Boston Housing 数据集,其中包含有关波士顿社区房屋的汇总数据,其中包括每个区域的房屋价格中位数的值。你的任务是基于可用工具的统计分析来构建一个最佳模型。这一模型将被用来预测你客户房屋的最佳销售价格。
项目要点: 此项目旨在让你熟练地掌握 sklearn 中的多种技能,包括训练、测试、评估与优化模型。
通过完成此项目你将掌握以下知识:
如何探索数据并观察特征。 如何训练和测试模型。 如何发现潜在问题,如由于偏差或方差导致的误差。 如何应用技术来改进模型,如交叉验证和网格搜索。
项目: 垃圾邮件检测
项目概述: 垃圾邮件检测是机器学习在现今互联网领域的主要应用之一。几乎所有大型电子邮箱服务提供商都内置了垃圾邮件检测系统,能够自动将此类邮件分类为“垃圾邮件”。
在此项目中,我们将使用朴素贝叶斯算法创建一个模型,该模型会通过我们对模型的训练将信息数据集分类为垃圾信息或非垃圾信息。对垃圾文本信息进行大致了解十分重要。通常它们都包含“免费”、“赢取”、“获奖者”、“现金”、“奖品”等字眼,因为这些它们专门用来吸引你的注意力,诱惑你打开信息。此外,垃圾信息的文字一般都使用大写形式和大量感叹号。收信人能轻易辨认垃圾信息,而我们的目标是训练模型帮助我们识别垃圾信息!
能够识别垃圾信息是一种二元分类问题,因为此处信息只有“垃圾信息”或“非垃圾信息”这两种分类。此外,这是一种监督式学习问题,因为我们会向模型中提供带标签数据集,模型能够从中学习规律并在日后做出预测。
项目:为慈善机构寻找捐助者
项目概述: 在此项目中,你将运用监督学习的技巧对美国人口普查数据进行分析,帮助 CharityML(一家虚拟的慈善机构)发现最有可能向他们捐款的人士。你首先将探索这些人口普查数据,了解数据的记录结构。接着,你将应用一系列的转换和预处理技巧操纵数据,使其变成可处理的格式。然后,你将自己选择几个监督学习器并将它们应用到数据上,看看哪个学习器最能满足需求。之后,你将优化所选的模型并当做解决方案呈现给 CharityML。最后,你将探索所选的模型和背后的预测原理,看看它在处理给定的数据时,效果如何。
项目要点: 此项目旨在帮助你熟悉 sklearn 中提供的大量监督学习算法,并且能够评估每个模型在某种类型的数据上的效果。在机器学习领域,务必要明白应该何时在什么场合使用特定的算法,以及何时避免使用某个算法。
完成此项目后,你将学会以下技能:
如何判断何时需要预处理数据,以及如何进行预处理。 如何为问题的解决方案建立基准。 对于给定的数据集,每种监督式学习算法会取得什么样的结果。 如何判断:候选解决方案的模型是否足以解决问题。
项目:卷积神经网络-狗狗品种分类器
项目概况: 欢迎来到卷积神经网络(CNN)项目!在这一项目中,你将学到如何建立一个处理现实生活中的,用户提供的图像的算法。给你一个狗的图像,你的算法将会识别并估计狗的品种,如果提供的图像是人,代码将会识别最相近的狗的品种。
在学习用于分类的最先进的 CNN 模型的同时,你将会为用户体验做出重要的设计与决定。我们的目标是,当你完成这一项目时,你将可以理解,通过将一系列模型拼接在一起,设计数据处理管道完成各式各样的任务所面临的挑战。每个模型都有它的优点与缺点,并且设计实际应用时,经常会面对解决许多没有最优解的问题。尽管你的解答不是最优的,但你的设计将带来愉快的用户体验!