在講邏輯回歸之前,我們先回顧一下感知器的一些知識(shí):
(資料圖)
感知器的公式:f(x)=sign(w·x+b)輸出+1或-1
那么問題來了,1、只輸出-1和+1是不是太死板了?這種判斷方法真的有效嗎?
2.距超平面左側(cè)0.001距離的點(diǎn)和距超平面右側(cè)0.001距離的點(diǎn)真的有巨大差異嗎?
同時(shí),感知器的缺陷也不容忽視:感知器通過梯度下降來更新參數(shù),但在符號(hào)函數(shù)中,x=0是不連續(xù)點(diǎn),不可微。
如何解決因距離極小而導(dǎo)致+1和-1相差巨大的問題? 2、如何讓最終的預(yù)測公式連續(xù)可微?
邏輯回歸可以解決以上問題
邏輯回歸的定義
P(Y=1|x)=取值范圍:(01)
P(Y=0|x)=取值范圍:(01)
圖形表示為
若將P(Y=1|x)記為A,P(Y=0|x)記為B,則A/A+B + B/A+B=1
邏輯回歸是連續(xù)可微的
參數(shù)估計(jì)
在學(xué)習(xí)邏輯回歸模型時(shí),對(duì)于給定的訓(xùn)練數(shù)據(jù)集T={(,), (,). (,)},其中,{0,1},可以應(yīng)用最大似然估計(jì)的方法來估計(jì)模型參數(shù),從而得到邏輯回歸模型。
假設(shè):P(Y=1 | x)=(x), P(Y=0|x)=1 - (x)
似然函數(shù)是
對(duì)數(shù)似然函數(shù)是
上圖中的對(duì)數(shù)似然函數(shù)看似簡單的三步過程,但是卻用到了很多知識(shí)。下面解釋詳細(xì)步驟,如下圖所示。
我再解釋一下,機(jī)器學(xué)習(xí)中對(duì)數(shù)的一點(diǎn)知識(shí):與熵相關(guān)的默認(rèn)縮寫為log;與商無關(guān)的默認(rèn)縮寫為log或ln
似然函數(shù)關(guān)于w 的導(dǎo)數(shù)
總結(jié)
1、物流以輸出概率的形式解決了極小距離造成的+1和-1的巨大差異。同時(shí),概率也可以作為模型輸出的置信度。
2. Logistics使得最終的模型函數(shù)連續(xù)可微。訓(xùn)練目標(biāo)和預(yù)測目標(biāo)一致
3.物流使用最大似然估計(jì)來估計(jì)參數(shù)。
什么是最大熵?
當(dāng)我們猜測概率時(shí),我們認(rèn)為不確定的部分是同樣可能的,就像骰子一樣。我們知道有6條邊,所以我們認(rèn)為每條邊的概率都是1/6,即等概率。
換句話說,為了實(shí)現(xiàn)均勻分布,最大熵使用了這樣一個(gè)簡單的原理:
無論我們知道什么,我們都會(huì)考慮它,無論我們不知道什么,我們都會(huì)平均分配它
最終目標(biāo)是找到概率P(Y |
熵:H(P)=-
將最終目標(biāo)代入熵:H(P)=-
進(jìn)行一些更改來調(diào)整熵:
H(P)=H(y | x)=-
注:1.H(P)=H(y | x) 為條件熵
2.表示來自訓(xùn)練集的統(tǒng)計(jì)數(shù)據(jù)
讓我們看看訓(xùn)練集中的統(tǒng)計(jì)概率:
(X=x)=
特征函數(shù)和特征函數(shù)f(x,y) 相對(duì)于經(jīng)驗(yàn)分布(x,y) 的期望值
特征函數(shù)f(x,y) 相對(duì)于模型P(Y|X) 和經(jīng)驗(yàn)分布(x) 的期望值:
最大熵模型
拉格朗日乘子法:
總結(jié)
1.最大熵強(qiáng)調(diào)不提及任何構(gòu)造,以熵最大化為目標(biāo)。
2、將最終目標(biāo)代入熵公式后,最大化
3. 查找訓(xùn)練集中現(xiàn)有的約束,計(jì)算期望,并將其用作約束。使用拉格朗日乘子法得到P(y|x),然后使用優(yōu)化算法得到P(y|x)中的參數(shù)w
參考視頻鏈接:https://www.bilibili.com/video/BV1i4411G7Xv?p=6vd_source=7621d9b6568d814ad80158fea1c47dcc
#頭條新聞創(chuàng)作挑戰(zhàn)#