机器学习爱好者必读的入门指南
将每个初始权重设置为1.0:
第2步: 通过函数运行你所知道的每一栋房子,看看这个函数离预测到每一套房子的正确价格有多远: 使用你的函数为每套房子预测价格 例如,如果第一套房子实际上卖了 25 万美元,但你的函数预测它卖了 17.8 万美元,那么这套房子的售价就少了 7.2 万美元。 现在把你的数据集里每套房子的售价差额平方相加,假设你的数据集中有 500 套房子的销售数据,你的函数计算的每套房子售价差额的平方的总和是 86,123,373 美元。这就是当前函数的“错误”程度。 现在,把总和除以 500,得到每套房子的平均差价。将这个平均错误量称为函数的成本(cost)。 如果你能通过调整权值使这个成本为零,你的函数就完美了。这意味着,在每种情况下,你的函数都能够根据输入的数据完美地猜测房屋的价格。这就是我们的目标:通过尝试不同的权重值使成本尽可能低。 第3步: 对每一个可能的权重组合重复第2步。最后选择使成本最接近于零的权重组合。当你找到合适的权重时,问题就解决了! 头脑风暴时间 很简单,对吧?回想一下你刚才都做了什么。你取了一些数据,通过三个通用的、非常简单的步骤输入数据,最后得到一个可以预测你所在地区的任何房子的价格的函数。 但还有一些事实会让你大吃一惊: 过去40年来,在许多领域(如语言学/翻译)进行的研究表明,这些“搅拌数字炖汤”(我刚编好的词)的通用学习算法可以实现真正的人为试图得到的明确规则方法。机器学习的“愚蠢”方法最终击败了人类专家。 最后得到的函数是完全愚蠢的。它甚至不知道“平方英尺”或“卧室”是什么。它所知道的是,它需要加入一些数字来得到正确的答案。 你很可能不知道为什么一组特定的权重会起作用。所以你只是写了一个你并不真正理解的函数,但是可以证明它是有效的。 想象一下,你的预测函数不是采用 “sqft” 和 “num-of-bedrooms” 这样的参数,而是接受一组数字。 假设每个数字代表安装在汽车顶部的摄像头拍摄的图像中一个像素的亮度。现在让我们假设,该函数不是输出一个名为“价格”的预测,而是输出一个名为“度”的预测来转动方向盘。那么你刚刚做了一个可以自动驾驶汽车的函数! 相当疯狂,不是吗? 第3步中,“尝试每个权重数字”是什么意思? 当然不可能去尝试所有可能的权重组合来找到最有效的组合。这真的需要花上很长时间,因为你永远也不会用尽所有的数字。 为了避免这种情况的发生,数学家们想出了许多聪明的方法,可以快速地找到合适的权重值而无需太多尝试。这里提供一种方法: 首先,写一个简单的方程来表示上面的第2步: 这是你的成本函数。 现在让我们重写一个完全相同的方程,但是使用一些机器学习的数学术语(你可以暂时忽略): θ 表示当前权重,J(θ) 表示当前权重的成本。 这个方程表示我们的价格估计函数在我们目前设置的权重下的错误程度。 如果我们将 numberofbedroom 和 sqft 的成本函数的所有权重可能值绘制出来,我们会得到这样一个图形: 我们的成本函数图看起来像一个碗。纵轴代表成本。 (编辑:上饶站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |