Gradient Descent
Last updated
Was this helpful?
Last updated
Was this helpful?
梯度下降實際上在做的是偏微分找斜率來找到Minimum 。偏微分可以找到相對於處的斜率,當斜率是負的,代表左邊越陡峭,所以要往右方移動。公式前方有一個負號,斜率為負就會往右邊移動。而要移動多大,則是依照斜率的大小,就越斜移動越大。另外還有一個數值用來控制大小,是:Learning rate。之後可以再談如何用來控制學習的速度。
下圖是只對作為分,另外還有參數,但兩個參數以上就是對兩個參數做偏微分而已,沒什麼。Gradient descent是分開計算的。
當微分為零的時候,斜率為零,代表其落入一個minimum,也有可能是Local minimum。但以Linear Regression而言,依照前面Loss function的定義,該function為一個Convex function,也就是說他沒有Local minimum。所以他的Loss map會長的像下圖左側而不是右側。