ai人臉識別面相測試(AI人臉識別面相測試)

發布時間：2026-01-22閱讀( 10)

邊策問耕發自凹非寺

量子位出品 | 公眾號 QbitAI

聲音決定長相？這個AI只聽6秒就能猜出你的臉

△ CSAIL所在的MIT Building 32

只聽聲音，就能知道一個人長什么樣？

是的。

大名鼎鼎的麻省理工CSAIL（人工智能實驗室），最近就發布了這樣一個令人驚訝的研究。只需要聽6秒的聲音片段，AI就能推斷出說話者的容貌。

詳細解釋之前，咱們一起試試先。

聽聽下面這段錄音，一共有六段。你能想象出來，說話的人長什么樣么？

怎么樣？你行么？

MIT研究人員，設計和訓練的神經網絡Speech2Face，就能通過短短的語音片段，推測出說話者的年齡、性別、種族等等多重屬性，然后重建說話人的面部。

下面就是AI聽聲識臉，給出的結果：

左邊一列是真實的照片，右邊一列是神經網絡根據聲音推斷出來的長相。

聲音決定長相？這個AI只聽6秒就能猜出你的臉

講真，這個效果讓我們佩服。

這篇論文也入圍了今年的學術頂級會議CVPR 2019。

當然這個研究也會引發一些隱私方面的擔憂。不過研究團隊在論文中特別聲明，這個神經網絡不追求完全精確還原單一個體的臉部圖像。

不同的語言也有影響。論文中舉了一個案例，同一男子分別說中文和英文，AI卻分別還原出了不同的面孔樣貌。當然，這也跟口音、發聲習慣等相關。

另外，研究團隊也表示，目前這套系統對還原白人和東亞人的面孔效果更好。可能由于印度和黑人的數據較少，還原效果還有待進一步提高。

原理

從聲音推斷一個人的長相不是一種玄學，平時我們在打電話時會根據對方的聲音腦補出相貌特征。

這是因為，年齡、性別、嘴巴形狀、面部骨骼結構，所有這些都會影響人發出的聲音。此外，語言、口音、速度通常會體現出一個的民族、地域、文化特征。

AI正是根據語音和相貌的關聯性做出推測。

為此，研究人員提取了幾百萬個YouTube視頻，通過訓練，讓深度神經網絡學習聲音和面部的相關性，找到說話的人一些基本特征，比如年齡、性別、種族等，并還原出相貌。

而且在這個過程中，不需要人類標記視頻，由模型自我監督學習。這就是文章中所說的Speech2Face模型。

將電話另一端通過卡通人物的方式顯示在你的手機上，可能是Speech2Face未來的一種實際應用。

聲音決定長相？這個AI只聽6秒就能猜出你的臉

模型結構

Speech2Face模型是如何還原人臉的，請看下圖：

聲音決定長相？這個AI只聽6秒就能猜出你的臉

給這個網絡輸入一個復雜的聲譜圖，它將會輸出4096-D面部特征，然后使用預訓練的面部解碼器將其還原成面部的標準圖像。

訓練模塊在圖中用橙色部分標記。在訓練過程中，Speech2Face模型不會直接用人臉圖像與原始圖像進行對比，而是與原始圖像的4096-D面部特征對比，省略了恢復面部圖像的步驟。

在訓練完成后，模型在推理過程中才會使用面部解碼器恢復人臉圖像。

訓練過程使用的是AVSpeech數據集，它包含幾百萬個YouTube視頻，超過10萬個人物的語音-面部數據。

在具體細節上，研究使用的中每個視頻片段開頭最多6秒鐘的音頻，并從中裁剪出人臉面部趨于，調整到224×224像素。

聲音決定長相？這個AI只聽6秒就能猜出你的臉

△從原始圖像提取特征重建的人臉，以及從聲音推測的人臉

之前，也有人研究過聲音推測面部特征，但都是從人的聲音預測一些屬性，然后從數據庫中獲取最適合預測屬性的圖像，或者使用這些屬性來生成圖像。

然而，這種方法存在局限性，需要有標簽來監督學習，系統的魯棒性也較差。

由于人臉圖像中面部表情、頭部姿態、遮擋和光照條件的巨大變化，想要獲得穩定的輸出結果，Speech2Face人臉模型的設計和訓練變得非常重要。

一般從輸入語音回歸到圖像的簡單方法不起作用，模型必須學會剔除數據中許多不相關的變化因素，并隱含地提取人臉有意義的內部表示。

為了解決這些困難，模型不是直接得到人臉圖像，而是回歸到人臉的低維中間表示。更具體地說，是利用人臉識別模型VGG-Face，并從倒數第二層的網絡提取一個4096-D面部特征。

模型的pipeline由兩個主要部分組成：

1、語音編碼器

語音編碼器模塊是一個CNN，將輸入的語音聲譜圖轉換成偽人臉特征，并預測面部的低維特征，隨后將其輸入人臉解碼器以重建人臉圖像。

2、面部解碼器

面部解碼器的輸入為低維面部特征，并以標準形式（正面和中性表情）產生面部圖像。

在訓練過程中，人臉解碼器是固定的，只訓練預測人臉特征的語音編碼器。語音編碼器是作者自己設計和訓練的模型，而面部解碼器使用的是前人提出的模型。

將實驗結果更進一步，Speech2Face還能用于人臉檢索。把基于語音的人臉預測結果與數據庫中的人臉進行比較，系統將給出5個最符合的人臉照片。

不足之處

若根據語言來預測種族，那么一個人說不同的語言會導致不同的預測結果嗎？

研究人員讓一個亞洲男性分別說英語和漢語，結果分別得到了2張不同的面孔。

聲音決定長相？這個AI只聽6秒就能猜出你的臉

模型有時候也能正確預測結果，比如讓一個亞洲小女孩說英文，雖然恢復出的圖像和本人有很大差距，但仍可以看出黃種人的面部特征。

聲音決定長相？這個AI只聽6秒就能猜出你的臉

研究人員表示，這個小女孩并沒有明顯的口音特征，所以他們的模型還要進一步檢查來確定對語言的依賴程度。

在其他一些情況下，模型也會“翻車”。比如：變聲期之前的兒童，會導致模型誤判性別發生錯誤；口音與種族特征不匹配；將老人識別為年輕人，或者是年輕人識別為老人。

聲音決定長相？這個AI只聽6秒就能猜出你的臉

作者團隊

聲音決定長相？這個AI只聽6秒就能猜出你的臉

這個研究的作者，大部分來自MIT CSAIL。

一作Tae-Hyun Oh是在CSAIL工作的Postdoctoral Associate，這個韓國小哥博士畢業于韓國科學技術院（KAIST），本科畢業于韓國光云大學（KWU）。他還曾經在微軟亞洲研究院實習。

二作Tali Dekel現在是Google的一位研究員，之前也是CSAIL實驗室的Postdoctoral Associate。她博士畢業于以色列的特拉維夫大學。

Tali Dekel還有一篇論文，也入選了今年的CVPR 2019，而且還拿到了Oral。在那篇論文里，她也是二作的身份。這篇論文昨天我們也報道了~

今年的CVPR將于6月16日在加州長灘召開。

最后，給一下傳送門。

論文地址在此：

https://arxiv.org/pdf/1905.09773.pdf

項目地址在此：

https://speech2face.github.io/

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

?'?' ? 追蹤AI技術和產品新動態

TAGS標簽：人臉識別面相測試 ai人臉識別面相測試 (AI人臉識別面相測

歡迎分享轉載→ http://m.avcorse.com/read-960912.html

上一篇：ai測試手相(塔羅占卜他)

下一篇：2004年12月10日是什么日子(黑龍江12月份下雨)

精品推薦

生活中的人生感悟說說，字字千金，富含哲理！
發布時間：2024-05-13

生活標簽

覽表參考) 日搶先選) 婚是好日子嗎(正月初 2022年正月初四結 2022年正月初四適 2022年正月十一適 2022年正月十三結 2022年正月十九適 2022年正月十九結 2022年正月十二結婚嗎(2022年2月 2022年正月可以結婚好嗎(2022年結 2022年正月十五結 2022年正月十八結 2022年正月結婚( 2022年正月哪天適嗎(2022年2月2 2022年正月結婚好子(2022年正月十 2022年正月結婚日 2022年正月黃道吉好日子(2022年2 2022年正月結婚的 2022年的適合結婚先選) 2022年結婚(20 2022年結婚上等吉 2022年結婚不吉利 2022年結婚吉日( 覽表(2022年結婚 2022年結婚吉日一 2022年結婚吉日表 2022年結婚吉日查 2022年結婚日歷( 2022年結婚好嗎( 2022年結婚日子( 日子(2022年結婚 2022年結婚登記的 2022年結婚的日子 2022年婚禮吉日) 2022年結婚黃歷( 子(2022年2月2 2022年結婚領證日 2022年老黃歷最準 2022年適合結婚么日子(2022年彩禮 2022年訂婚最好的 2022年臘月十八適更多…

ai人臉識別面相測試(AI人臉識別面相測試)

相關文章

精品推薦

生活標簽

圖片生活

點擊排行