機器學習面試口訣（精選5道大廠常考機器學習面試題）

發布時間：2024-01-24閱讀(14)

導讀問題1：熵、條件熵、互信息、相對熵熵：熵是一個隨機變量不確定性的度量。對于一個離散型變量，定義為：一個隨機性變量的熵越大，就表示不確定性越大，也就是說隨機變....問題1：熵、條件熵、互信息、相對熵

熵：熵是一個隨機變量不確定性的度量。對于一個離散型變量，定義為：

機器學習面試口訣（精選5道大廠常考機器學習面試題）(1)

一個隨機性變量的熵越大，就表示不確定性越大，也就是說隨機變量包含的信息量越大。

熵只依賴于X的分布，與X的取值無關。

條件熵：條件熵 H(Y|X) 表示在已知隨機變量 X 的條件下隨機變量 Y 的不確定性，H(Y|X) 定義為在給定條件 X 下，Y 的條件概率分布的熵對 X 的數學期望：

公式為：

機器學習面試口訣（精選5道大廠常考機器學習面試題）(2)

互信息：互信息表示在得知 Y 后，原來信息量減少了多少。

機器學習面試口訣（精選5道大廠常考機器學習面試題）(3)

如果X與Y相互獨立，則互信息為0。

KL散度（相對熵）與JS散度：KL散度指的是相對熵，KL散度是兩個概率分布P和Q差別的非對稱性的度量。KL散度越小表示兩個分布越接近。也就是說KL散度是不對稱的，且KL散度的值是非負數。

機器學習面試口訣（精選5道大廠常考機器學習面試題）(4)

JS散度是基于KL散度的變種，度量了兩個概率分布的相似度，解決了KL散度的非對稱問題。如果兩個分配P,Q離得很遠，完全沒有重疊的時候，那么KL散度值是沒有意義的，而JS散度值是一個常數。這在學習算法中是比較致命的，這就意味這這一點的梯度為0。梯度消失了。

機器學習面試口訣（精選5道大廠常考機器學習面試題）(5)

三者關系

機器學習面試口訣（精選5道大廠常考機器學習面試題）(6)

【知識圖譜實戰特訓】價值千元課程，金三福利限時1元秒，僅限前150名，先到先得！

https://www.julyedu.com/course/getDetail/410&from=TT

課程結合了理論與實踐，盡可能讓大家學完后能在工業場景項目中落地。帶領大家從圖譜的構建開始，學習圖譜的存儲結構，主流的圖數據庫，圖算法并分別介紹結構化數據與非結構化數據如何構建成圖譜。

機器學習面試口訣（精選5道大廠常考機器學習面試題）(7)

問題2：機器學習泛化能力評測指標

泛化能力是模型對未知數據的預測能力。

準確率：分類正確的樣本占總樣本的比例

準確率的缺陷：當正負樣本不平衡比例時，當不同類別的樣本比例非常不均衡時，占比大的類別往往成為影響準確率的最主要因素。

精確率：分類正確的正樣本個數占分類器預測為正樣本的樣本個數的比例；

召回率：分類正確的正樣本個數占實際的正樣本個數的比例。

F1 score：是精確率和召回率的調和平均數，綜合反應模型分類的性能。

Precision值和Recall值是既矛盾又統一的兩個指標，為了提高Precision值，分類器需要盡量在“更有把握”時才把樣本預測為正樣本，但此時往往會因為過于保守而漏掉很多“沒有把握”的正樣本，導致Recall值降低。

ROC曲線的橫坐標為假陽性率（False Positive Rate，FPR）；縱坐標為真陽性率（True Positive Rate，TPR）。FPR和TPR的計算方法分別為

精確度（precision）/查準率：TP/（TP FP）=TP/P 預測為真中，實際為正樣本的概率

召回率（recall）/查全率：TP/（TP FN）正樣本中，被識別為真的概率

假陽率（False positive rate）：FPR = FP/(FP TN) 負樣本中，被識別為真的概率

真陽率（True positive rate）：TPR = TP/（TP FN）正樣本中，能被識別為真的概率

準確率（accuracy）：ACC =（TP TN）/(P N) 所有樣本中，能被正確識別的概率

上式中，P是真實的正樣本的數量，N是真實的負樣本的數量，TP是P個正樣本中被分類器預測為正樣本的個數，FP是N個負樣本中被分類器預測為正樣本的個數。

AUC：AUC是ROC曲線下面的面積，AUC可以解讀為從所有正例中隨機選取一個樣本A，再從所有負例中隨機選取一個樣本B，分類器將A判為正例的概率比將B判為正例的概率大的可能性。AUC反映的是分類器對樣本的排序能力。AUC越大，自然排序能力越好，即分類器將越多的正例排在負例之前。

回歸問題

RMSE：RMSE經常被用來衡量回歸模型的好壞。

RMSE能夠很好地反映回歸模型預測值與真實值的偏離程度。但在實際問題中，如果存在個別偏離程度非常大的離群點（Outlier）時，即使離群點數量非常少，也會讓RMSE指標變得很差。

MAPE：引入別的評價指標，MAPE，平均絕對百分比誤差

相比RMSE，MAPE相當于把每個點的誤差進行了歸一化，降低了個別離群點帶來的絕對誤差的影響。

F1-score：在多分類問題中，如果要計算模型的F1-score，則有兩種計算方式，分別為微觀micro-F1和宏觀macro-F1，這兩種計算方式在二分類中與F1-score的計算方式一樣，所以在二分類問題中，計算micro-F1=macro-F1=F1-score，micro-F1和macro-F1都是多分類F1-score的兩種計算方式。

micro-F1：計算方法：先計算所有類別的總的Precision和Recall，然后計算出來的F1值即為micro-F1；

使用場景：在計算公式中考慮到了每個類別的數量，所以適用于數據分布不平衡的情況；但同時因為考慮到數據的數量，所以在數據極度不平衡的情況下，數量較多數量的類會較大的影響到F1的值；

marco-F1：計算方法：將所有類別的Precision和Recall求平均，然后計算F1值作為macro-F1；

使用場景：沒有考慮到數據的數量，所以會平等的看待每一類（因為每一類的precision和recall都在0-1之間），會相對受高precision和高recall類的影響較大。

問題3：過擬合和欠擬合

過擬合：是指訓練誤差和測試誤差之間的差距太大。換句換說，就是模型復雜度高于實際問題，模型在訓練集上表現很好，但在測試集上卻表現很差。

欠擬合：模型不能在訓練集上獲得足夠低的誤差。換句換說，就是模型復雜度低，模型在訓練集上就表現很差，沒法學習到數據背后的規律。

如何解決欠擬合？

欠擬合基本上都會發生在訓練剛開始的時候，經過不斷訓練之后欠擬合應該不怎么考慮了。但是如果真的還是存在的話，可以通過增加網絡復雜度或者在模型中增加特征，這些都是很好解決欠擬合的方法。

如何防止過擬合？

數據的角度：獲取和使用更多的數據（數據集增強）；

模型角度：降低模型復雜度、L1\L2\Dropout正則化、Early stopping（提前終止）