机器学习爱好者必读的入门指南
因此,如果我们计算成本函数对每个权重的偏导数,我们就可以从每个权重中减去这个值。这将使我们离山脚更近一步。继续这样做,最终我们会到达山的底部,并为我们的权重找到最好的值。(如果不理解,别担心,继续读下去)。 这是一种为函数寻找最佳权重方法的高级总结,称为批量梯度下降(batch gradient descent)。当你使用机器学习库来解决实际问题时,所有这些计算都会为你完成。但是对正在发生的事情有一个好的了解仍然是有用的。 还跳过了什么内容呢? 我所描述的三步算法叫做多元线性回归(multivariate linear regression)。你正在估算一条贯穿你的所有家庭数据点的直线的方程。然后,根据房子在你的线上的位置,用这个方程来预测你以前从未见过的房子的销售价格。这是一个非常有用的主意,你可以用它来解决“真正的”问题。 虽然我向你展示的方法适用于简单的情况,但它并不适用于所有情况。其中一个原因是,房价并不总是简单到可以遵循一条连续的线。 但幸运的是,有很多方法可以解决这个问题。有许多其他的机器学习算法可以处理非线性数据(如神经网络(neural networks)或带内核的支持向量机(support vector machine, SVM)。也有一些更巧妙地使用线性回归的方法,允许更复杂的线被拟合。在所有情况下,找到最佳权重的基本思想仍然适用。 另外,我忽略了 过拟合(overfitting)的概念。一个简单的例子,有一组权重,它总是能够很好地预测原始数据集中房屋的价格,但实际上从未适用于任何不在原始数据集中的新房屋。但有一些方法可以解决这一问题(如正则化(regularization) 和使用交叉验证数据集(cross-validation)。学会如何处理这个问题是学习如何成功应用机器学习的关键部分。 换句话说,虽然基本概念相当简单,但是应用机器学习并获得有用的结果需要一些技巧和经验。但这是任何开发人员都可以学习的技能! 机器学习有魔法吗? 一旦你开始发现机器学习技术很容易应用到看起来很难解决的问题上(比如手写识别),你就会开始感觉到你可以用机器学习来解决任何问题,只要你有足够的数据就可以得到答案。只需要输入数据,然后看着电脑神奇地计算出与数据相符的方程! 但重要的是要记住,机器学习只有在问题确实可以用现有的数据解决的情况下才有效。 例如,如果你建立一个模型,根据每套房子里盆栽植物的类型来预测房价,那么这个模型永远不会奏效。每套房子里的盆栽植物和房子的售价之间没有任何关系。因此,无论如何努力,计算机永远无法推断出两者之间的关系。 只能够为实际存在关系的模型建模。所以记住,如果人类专家不能用这些数据来手动解决这个问题,那么计算机可能也不能。更应该关注的是那些人类可以解决的问题,如果计算机能够更快地解决,就太棒了。 如何深入了解机器学习? 在我看来,目前机器学习最大的问题是它主要存在在学术界和商业研究团体的世界里。对于那些想要在不成为专家的情况下而能广泛理解机器学习的人来说,并没有很多容易理解的材料。但是这方面每天都在进步。 如果你想深入了解,吴恩达(Andrew Ng)在 Coursera 上开设的免费机器学习课程是非常棒的。我强烈推荐。它应该对任何拥有计算机科学学位并且只记得很少数学知识的人都是容易理解的。
(编辑:上饶站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |