發布時間:2024-01-24閱讀(14)
熵:熵是一個隨機變量不確定性的度量。對于一個離散型變量,定義為:

一個隨機性變量的熵越大,就表示不確定性越大,也就是說隨機變量包含的信息量越大。
熵只依賴于X的分布,與X的取值無關。
條件熵:條件熵 H(Y|X) 表示在已知隨機變量 X 的條件下隨機變量 Y 的不確定性,H(Y|X) 定義為在給定條件 X 下,Y 的條件概率分布的熵對 X 的數學期望:
公式為:

互信息:互信息表示在得知 Y 后,原來信息量減少了多少。

如果X與Y相互獨立,則互信息為0。
KL散度(相對熵)與JS散度:KL散度指的是相對熵,KL散度是兩個概率分布P和Q差別的非對稱性的度量。KL散度越小表示兩個分布越接近。也就是說KL散度是不對稱的,且KL散度的值是非負數。

JS散度是基于KL散度的變種,度量了兩個概率分布的相似度,解決了KL散度的非對稱問題。如果兩個分配P,Q離得很遠,完全沒有重疊的時候,那么KL散度值是沒有意義的,而JS散度值是一個常數。這在學習算法中是比較致命的,這就意味這這一點的梯度為0。梯度消失了。

三者關系

【知識圖譜實戰特訓】價值千元課程,金三福利限時1元秒,僅限前150名,先到先得!
https://www.julyedu.com/course/getDetail/410&from=TT
課程結合了理論與實踐,盡可能讓大家學完后能在工業場景項目中落地。帶領大家從圖譜的構建開始,學習圖譜的存儲結構,主流的圖數據庫,圖算法并分別介紹結構化數據與非結構化數據如何構建成圖譜。

泛化能力是模型對未知數據的預測能力。
準確率:分類正確的樣本占總樣本的比例
準確率的缺陷:當正負樣本不平衡比例時,當不同類別的樣本比例非常不均衡時,占比大的類別往往成為影響準確率的最主要因素。
精確率:分類正確的正樣本個數占分類器預測為正樣本的樣本個數的比例;
召回率:分類正確的正樣本個數占實際的正樣本個數的比例。
F1 score:是精確率和召回率的調和平均數,綜合反應模型分類的性能。
Precision值和Recall值是既矛盾又統一的兩個指標,為了提高Precision值,分類器需要盡量在“更有把握”時才把樣本預測為正樣本,但此時往往會因為過于保 守而漏掉很多“沒有把握”的正樣本,導致Recall值降低。
ROC曲線的橫坐標為假陽性率(False Positive Rate,FPR);縱坐標為真陽性 率(True Positive Rate,TPR)。FPR和TPR的計算方法分別為
精確度(precision)/查準率:TP/(TP FP)=TP/P 預測為真中,實際為正樣本的概率
召回率(recall)/查全率:TP/(TP FN) 正樣本中,被識別為真的概率
假陽率(False positive rate):FPR = FP/(FP TN) 負樣本中,被識別為真的概率
真陽率(True positive rate):TPR = TP/(TP FN) 正樣本中,能被識別為真的概率
準確率(accuracy):ACC =(TP TN)/(P N) 所有樣本中,能被正確識別的概率
上式中,P是真實的正樣本的數量,N是真實的負樣本的數量,TP是P個正樣本中被分類器預測為正樣本的個數,FP是N個負樣本中被分類器預測為正樣本的個數。
AUC:AUC是ROC曲線下面的面積,AUC可以解讀為從所有正例中隨機選取一個樣本A,再從所有負例中隨機選取一個樣本B,分類器將A判為正例的概率比將B判為正例的概率大的可能性。AUC反映的是分類器對樣本的排序能力。AUC越大,自然排序能力越好,即分類器將越多的正例排在負例之前。
回歸問題
RMSE:RMSE經常被用來衡量回歸模型的好壞。
RMSE能夠很好地反映回歸模型預測值與真實值的偏離程度。但在實際問題中,如果存在個別偏離程度非常大的離群點(Outlier)時,即使離群點 數量非常少,也會讓RMSE指標變得很差。
MAPE:引入別的評價指標,MAPE,平均絕對百分比誤差
相比RMSE,MAPE相當于把每個點的誤差進行了歸一化,降低了個別離群點帶來的絕對誤差的影響。
F1-score:在多分類問題中,如果要計算模型的F1-score,則有兩種計算方式,分別為微觀micro-F1和宏觀macro-F1,這兩種計算方式在二分類中與F1-score的計算方式一樣,所以在二分類問題中,計算micro-F1=macro-F1=F1-score,micro-F1和macro-F1都是多分類F1-score的兩種計算方式。
micro-F1:計算方法:先計算所有類別的總的Precision和Recall,然后計算出來的F1值即為micro-F1;
使用場景:在計算公式中考慮到了每個類別的數量,所以適用于數據分布不平衡的情況;但同時因為考慮到數據的數量,所以在數據極度不平衡的情況下,數量較多數量的類會較大的影響到F1的值;
marco-F1:計算方法:將所有類別的Precision和Recall求平均,然后計算F1值作為macro-F1;
使用場景:沒有考慮到數據的數量,所以會平等的看待每一類(因為每一類的precision和recall都在0-1之間),會相對受高precision和高recall類的影響較大。
問題3:過擬合和欠擬合過擬合:是指訓練誤差和測試誤差之間的差距太大。換句換說,就是模型復雜度高于實際問題,模型在訓練集上表現很好,但在測試集上卻表現很差。
欠擬合:模型不能在訓練集上獲得足夠低的誤差。換句換說,就是模型復雜度低,模型在訓練集上就表現很差,沒法學習到數據背后的規律。
如何解決欠擬合?
欠擬合基本上都會發生在訓練剛開始的時候,經過不斷訓練之后欠擬合應該不怎么考慮了。但是如果真的還是存在的話,可以通過增加網絡復雜度或者在模型中增加特征,這些都是很好解決欠擬合的方法。
如何防止過擬合?
數據的角度:獲取和使用更多的數據(數據集增強);
模型角度:降低模型復雜度、L1\L2\Dropout正則化、Early stopping(提前終止)
模型融合的角度:使用bagging等模型融合方法。
問題4:生成式模型和判別式模型生成模型:學習得到聯合概率分布P(x,y),即特征x,共同出現的概率
常見的生成模型:樸素貝葉斯模型,混合高斯模型,HMM模型。
判別模型:學習得到條件概率分布P(y|x),即在特征x出現的情況下標記y出現的概率。
常見的判別模型:感知機,決策樹,邏輯回歸,SVM,CRF等。
問題5:L1和L2區別L1是模型各個參數的絕對值之和。
L2是模型各個參數的平方和的開方值。
L1會趨向于產生少量的特征,而其他的特征都是0。 因為最優的參數值很大概率出現在坐標軸上,這樣就會導致某一維的權重為0 ,產生稀疏權重矩陣
L2會選擇更多的特征,這些特征都會接近于0。 最優的參數值很小概率出現在坐標軸上,因此每一維的參數都不會是0。當最小化||w||時,就會使每一項趨近于0。
L1的作用是為了矩陣稀疏化。假設的是模型的參數取值滿足拉普拉斯分布。
L2的作用是為了使模型更平滑,得到更好的泛化能力。假設的是參數是滿足高斯分布。
【知識圖譜實戰特訓】價值千元課程,金三福利限時1元秒,僅限前150名,先到先得!
https://www.julyedu.com/course/getDetail/410&from=TT
課程結合了理論與實踐,盡可能讓大家學完后能在工業場景項目中落地。帶領大家從圖譜的構建開始,學習圖譜的存儲結構,主流的圖數據庫,圖算法并分別介紹結構化數據與非結構化數據如何構建成圖譜。

歡迎分享轉載→http://m.avcorse.com/read-222081.html
Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號-5 TXT地圖HTML地圖XML地圖