久久综合九色综合97婷婷-美女视频黄频a免费-精品日本一区二区三区在线观看-日韩中文无码有码免费视频-亚洲中文字幕无码专区-扒开双腿疯狂进出爽爽爽动态照片-国产乱理伦片在线观看夜-高清极品美女毛茸茸-欧美寡妇性猛交XXX-国产亚洲精品99在线播放-日韩美女毛片又爽又大毛片,99久久久无码国产精品9,国产成a人片在线观看视频下载,欧美疯狂xxxx吞精视频

有趣生活

當前位置:首頁>職場>機器學習面試口訣(精選5道大廠常考機器學習面試題)

機器學習面試口訣(精選5道大廠常考機器學習面試題)

發布時間:2024-01-24閱讀(14)

導讀問題1:熵、條件熵、互信息、相對熵熵:熵是一個隨機變量不確定性的度量。對于一個離散型變量,定義為:一個隨機性變量的熵越大,就表示不確定性越大,也就是說隨機變....問題1:熵、條件熵、互信息、相對熵

熵:熵是一個隨機變量不確定性的度量。對于一個離散型變量,定義為:

機器學習面試口訣(精選5道大廠常考機器學習面試題)(1)

一個隨機性變量的熵越大,就表示不確定性越大,也就是說隨機變量包含的信息量越大。

熵只依賴于X的分布,與X的取值無關。

條件熵:條件熵 H(Y|X) 表示在已知隨機變量 X 的條件下隨機變量 Y 的不確定性,H(Y|X) 定義為在給定條件 X 下,Y 的條件概率分布的熵對 X 的數學期望:

公式為:

機器學習面試口訣(精選5道大廠常考機器學習面試題)(2)

互信息:互信息表示在得知 Y 后,原來信息量減少了多少。

機器學習面試口訣(精選5道大廠常考機器學習面試題)(3)

如果X與Y相互獨立,則互信息為0。

KL散度(相對熵)與JS散度:KL散度指的是相對熵,KL散度是兩個概率分布P和Q差別的非對稱性的度量。KL散度越小表示兩個分布越接近。也就是說KL散度是不對稱的,且KL散度的值是非負數。

機器學習面試口訣(精選5道大廠常考機器學習面試題)(4)

JS散度是基于KL散度的變種,度量了兩個概率分布的相似度,解決了KL散度的非對稱問題。如果兩個分配P,Q離得很遠,完全沒有重疊的時候,那么KL散度值是沒有意義的,而JS散度值是一個常數。這在學習算法中是比較致命的,這就意味這這一點的梯度為0。梯度消失了。

機器學習面試口訣(精選5道大廠常考機器學習面試題)(5)

三者關系

機器學習面試口訣(精選5道大廠常考機器學習面試題)(6)


【知識圖譜實戰特訓】價值千元課程,金三福利限時1元秒,僅限前150名,先到先得!

https://www.julyedu.com/course/getDetail/410&from=TT

課程結合了理論與實踐,盡可能讓大家學完后能在工業場景項目中落地。帶領大家從圖譜的構建開始,學習圖譜的存儲結構,主流的圖數據庫,圖算法并分別介紹結構化數據與非結構化數據如何構建成圖譜。

機器學習面試口訣(精選5道大廠常考機器學習面試題)(7)


問題2:機器學習泛化能力評測指標

泛化能力是模型對未知數據的預測能力。

準確率:分類正確的樣本占總樣本的比例

準確率的缺陷:當正負樣本不平衡比例時,當不同類別的樣本比例非常不均衡時,占比大的類別往往成為影響準確率的最主要因素。

精確率:分類正確的正樣本個數占分類器預測為正樣本的樣本個數的比例;

召回率:分類正確的正樣本個數占實際的正樣本個數的比例。

F1 score:是精確率和召回率的調和平均數,綜合反應模型分類的性能。

Precision值和Recall值是既矛盾又統一的兩個指標,為了提高Precision值,分類器需要盡量在“更有把握”時才把樣本預測為正樣本,但此時往往會因為過于保 守而漏掉很多“沒有把握”的正樣本,導致Recall值降低。

ROC曲線的橫坐標為假陽性率(False Positive Rate,FPR);縱坐標為真陽性 率(True Positive Rate,TPR)。FPR和TPR的計算方法分別為

精確度(precision)/查準率:TP/(TP FP)=TP/P 預測為真中,實際為正樣本的概率

召回率(recall)/查全率:TP/(TP FN) 正樣本中,被識別為真的概率

假陽率(False positive rate):FPR = FP/(FP TN) 負樣本中,被識別為真的概率

真陽率(True positive rate):TPR = TP/(TP FN) 正樣本中,能被識別為真的概率

準確率(accuracy):ACC =(TP TN)/(P N) 所有樣本中,能被正確識別的概率

上式中,P是真實的正樣本的數量,N是真實的負樣本的數量,TP是P個正樣本中被分類器預測為正樣本的個數,FP是N個負樣本中被分類器預測為正樣本的個數。

AUC:AUC是ROC曲線下面的面積,AUC可以解讀為從所有正例中隨機選取一個樣本A,再從所有負例中隨機選取一個樣本B,分類器將A判為正例的概率比將B判為正例的概率大的可能性。AUC反映的是分類器對樣本的排序能力。AUC越大,自然排序能力越好,即分類器將越多的正例排在負例之前。

回歸問題

RMSE:RMSE經常被用來衡量回歸模型的好壞。

RMSE能夠很好地反映回歸模型預測值與真實值的偏離程度。但在實際問題中,如果存在個別偏離程度非常大的離群點(Outlier)時,即使離群點 數量非常少,也會讓RMSE指標變得很差。

MAPE:引入別的評價指標,MAPE,平均絕對百分比誤差

相比RMSE,MAPE相當于把每個點的誤差進行了歸一化,降低了個別離群點帶來的絕對誤差的影響。

F1-score:在多分類問題中,如果要計算模型的F1-score,則有兩種計算方式,分別為微觀micro-F1和宏觀macro-F1,這兩種計算方式在二分類中與F1-score的計算方式一樣,所以在二分類問題中,計算micro-F1=macro-F1=F1-score,micro-F1和macro-F1都是多分類F1-score的兩種計算方式。

micro-F1:計算方法:先計算所有類別的總的Precision和Recall,然后計算出來的F1值即為micro-F1;

使用場景:在計算公式中考慮到了每個類別的數量,所以適用于數據分布不平衡的情況;但同時因為考慮到數據的數量,所以在數據極度不平衡的情況下,數量較多數量的類會較大的影響到F1的值;

marco-F1:計算方法:將所有類別的Precision和Recall求平均,然后計算F1值作為macro-F1;

使用場景:沒有考慮到數據的數量,所以會平等的看待每一類(因為每一類的precision和recall都在0-1之間),會相對受高precision和高recall類的影響較大。

問題3:過擬合和欠擬合

過擬合:是指訓練誤差和測試誤差之間的差距太大。換句換說,就是模型復雜度高于實際問題,模型在訓練集上表現很好,但在測試集上卻表現很差。

欠擬合:模型不能在訓練集上獲得足夠低的誤差。換句換說,就是模型復雜度低,模型在訓練集上就表現很差,沒法學習到數據背后的規律。

如何解決欠擬合?

欠擬合基本上都會發生在訓練剛開始的時候,經過不斷訓練之后欠擬合應該不怎么考慮了。但是如果真的還是存在的話,可以通過增加網絡復雜度或者在模型中增加特征,這些都是很好解決欠擬合的方法。

如何防止過擬合?

數據的角度:獲取和使用更多的數據(數據集增強);

模型角度:降低模型復雜度、L1\L2\Dropout正則化、Early stopping(提前終止)

模型融合的角度:使用bagging等模型融合方法。

問題4:生成式模型和判別式模型

生成模型:學習得到聯合概率分布P(x,y),即特征x,共同出現的概率

常見的生成模型:樸素貝葉斯模型,混合高斯模型,HMM模型

判別模型:學習得到條件概率分布P(y|x),即在特征x出現的情況下標記y出現的概率。

常見的判別模型:感知機,決策樹,邏輯回歸,SVM,CRF等。

問題5:L1和L2區別

L1是模型各個參數的絕對值之和。

L2是模型各個參數的平方和的開方值。

L1會趨向于產生少量的特征,而其他的特征都是0。 因為最優的參數值很大概率出現在坐標軸上,這樣就會導致某一維的權重為0 ,產生稀疏權重矩陣

L2會選擇更多的特征,這些特征都會接近于0。 最優的參數值很小概率出現在坐標軸上,因此每一維的參數都不會是0。當最小化||w||時,就會使每一項趨近于0。

L1的作用是為了矩陣稀疏化。假設的是模型的參數取值滿足拉普拉斯分布。

L2的作用是為了使模型更平滑,得到更好的泛化能力。假設的是參數是滿足高斯分布。


【知識圖譜實戰特訓】價值千元課程,金三福利限時1元秒,僅限前150名,先到先得!

https://www.julyedu.com/course/getDetail/410&from=TT

課程結合了理論與實踐,盡可能讓大家學完后能在工業場景項目中落地。帶領大家從圖譜的構建開始,學習圖譜的存儲結構,主流的圖數據庫,圖算法并分別介紹結構化數據與非結構化數據如何構建成圖譜。

機器學習面試口訣(精選5道大廠常考機器學習面試題)(8)

歡迎分享轉載→http://m.avcorse.com/read-222081.html

Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號-5 TXT地圖HTML地圖XML地圖