京東筆試是網申都可以參加嗎（2022年京東NLP實習面試題7道）

發布時間：2024-01-19閱讀( 28)

導讀問題1：BeamSearch生成的句子基本都一樣，是否有方法擴展生成句子的多樣性。解決方法：通過分組加入相似性懲罰，具體可以參考論文Diversebeams....問題1：Beam Search生成的句子基本都一樣，是否有方法擴展生成句子的多樣性。

解決方法：通過分組加入相似性懲罰，具體可以參考論文 Diverse beam search：https://arxiv.org/pdf/1610.02424.pdf。

具體方法：選擇Beam size為B，然后將其分為G組，每一組就有 B/G 個beam，每個單獨的組內跟 beam search很像，不斷延展序列，同時引入一個 dissimilarity項來保證組與組之間有差異。

組內與 beam search 很像：從t-1到 t 時刻，不斷的減少搜索空間（如同beam search一樣）。

組間差異：對于t=4時刻，我們先對第一組輸出y（t=4），然后我們開始對第二組輸出y（t=4），但是第二組y（t=4）的score不僅取決于第二組之前的y（t=3），也取決于其與第一組的相似程度。以此類推，在t=4時刻對于第三組的輸出，我們從上圖可以看到其score的打分標準。這兒對于其 dissimilarity 項的計算采用的辦法是 hamming diversity，這個理解起來很簡單，比如這個時刻可能輸出的詞在上面的組出現過，我們就對這個詞的分數-1，如果這個時刻可能輸出的詞在上面組沒有出現過，我們就對這個詞的分數不懲罰。

京東筆試是網申都可以參加嗎（2022年京東NLP實習面試題7道）(1)

NLP競賽 · 從傳統詞向量到預訓練模型--文本分類任務的快速上分大法
? 7月13日開課，限時0.01元福利秒殺
? 限額10名，速搶>>https://www.julyedu.com/course/getDetail/458
問題2：RLayer Normalization 和 Batch Normalization的區別，padding對這兩者有影響嗎，對哪一維有影響。
Batch Normalization 是對這批樣本的同一維度特征做歸一化， Layer Normalization 是對這單個樣本的所有維度特征做歸一化。區別：LN中同層神經元輸入擁有相同的均值和方差，不同的輸入樣本有不同的均值和方差；
BN中則針對不同神經元輸入計算均值和方差，同一個batch中的輸入擁有相同的均值和方差。
所以，LN不依賴于batch的大小和輸入sequence的長度，因此可以用于batchsize為1和RNN中sequence的normalize操作。padding會對Batch Normalization的seq_len這個維度有影響，計算的時候會把padding也算進去。
問題3：pytorch.Dataloader 報錯出現數據維度不一樣怎么解決。
在構建dataset重寫的__getitem__方法中要返回相同長度的tensor。
可以使用向量補全的方法來解決這個問題，把不同長度的向量補全成等長的。
NLP競賽 · 從傳統詞向量到預訓練模型--文本分類任務的快速上分大法
? 7月13日開課，限時0.01元福利秒殺
? 限額10名，速搶>>https://www.julyedu.com/course/getDetail/458
問題4：無序數組，找topK，要求比快排快。
解題思路：堆排序，復雜度 nlogk
1.取列表前k個元素建??個?根堆。堆頂就是?前第k?的數。
2. 依次向后遍歷原列表，對于列表中的元素，如果?于堆頂，則忽略該元素；如果?于堆頂，則將堆頂更換為該元素，并且對堆進??次調整；
3.遍歷列表所有元素后，倒序彈出堆頂。
問題5：Bert里面mask的用處。
預訓練的時候在句子編碼的時候將部分詞mask，這個主要作用是用被mask詞前后的詞來去猜測mask掉的詞是什么，因為是人為mask掉的，所以計算機是知道mask詞的正確值，所以也可以判斷模型猜的詞是否準確。進而更好地提升Bert詞向量的雙向編碼能力。
問題6：對于兩個詞怎么算他們的相似度，用基于word embedding的方式。
歐氏距離、曼哈頓距離、馬氏距離、余弦距離、漢明距離等等。
問題7：Leetcode—最大子序列和。
進大廠是大部分程序員的夢想，而進大廠的門檻也是比較高的。刷題，也成為面試前的必備環節。
七妹給大家準備了“武功秘籍”，七月在線干貨組繼19年出的兩本書《名企AI面試100題》和《名企AI面試100篇》后，又整理出《機器學習十大算法系列》、《2021年最新大廠AI面試題 Q3版》兩本圖書，不少同學通過學習拿到拿到dream offer。
為了讓更多AI人受益，七仔現把電子版免費送給大家,希望對你的求職有所幫助。如果點贊和點在看的人數較多，我會后續整理資料并分享答案給大家。
以下4本書，電子版，添加VX：julyedufu77（或七月在線任一老師）回復“088” 領取！