來源:量子位
雖然AI 在藝術領域一直有不少爭議,但它一直也沒停下各種嘗試的步伐:
寫歌、畫畫、寫詩……這不,剛又學會了填詞。
我們給這個 AI 放了一首鋼琴曲,曲調非常悠揚平和。
然后,它生成的部分詞是這樣的:
各位感覺如何?
其中,生成過程的動態效果看著還不錯:
當然,它可以很好地分辨不同風格的音樂:給安靜的鋼琴樂生成的詞與給嘈雜的搖滾樂生成的會完全不一樣。
不過,鑒于目前的填詞效果(比如有時無厘頭的上下銜接),研究人員也表示:
這個工具也不是為了取代音樂家,而是成為一個激發音樂家創作靈感的工具,輔助他們創造出滿意的作品。
ps. 此處在線 cue 周杰倫,御用詞人試試 AI?
如何分辨出不同風格的曲子?
這項研究來自滑鐵盧大學,研究成果即將發表在 ICCC 2021。
項目的動機源于其中一位研究員的個人興趣。
這名研究員非常喜歡音樂,所以她很好奇機器是否可以生成聽起來像她最喜歡的音樂藝術家風格的歌詞。
最終做出來的系統叫做LyricJam,已有在線網頁版供任何感興趣的音樂人訪問使用。
該系統通過將原始音頻文件轉換為頻譜圖,然后使用深度學習模型實時生成與音樂相匹配的歌詞。
模型的架構由兩個變分自動編碼器(VAE)組成,一個用于學習音樂音頻的表示,另一個用于學習生成歌詞。
訓練數據集由 18000 個原始歌曲的 WAV 音頻片段和 7 種音樂藝術家的相應歌詞組成。
首先使用 CNN 來根據頻譜圖將帶歌詞的音頻,按風格分類成不同 " 藝術家 "。
然后訓練一個條件 VAE ( conditional VAE,CVAE ) " 重建 " 原始歌詞,根據不同類型音樂的歌詞用詞和表達方式的不同,生成一系列連貫的新歌詞。
其中生成條件是前面預先訓練的 " 藝術家 " 種類。
推理階段,流程差不多:系統將實時錄制的音頻片段轉換成頻譜圖,然后進行風格識別,為了生成最匹配的歌詞,需要根據 " 藝術家 " 的類別從潛在空間中采樣并對其進行解碼,然后生成對應的歌詞表達。
最后,使用基于 GAN 的對齊模型來對齊兩種編碼器生成的歌詞和音頻表示。
最終效果如何呢?
" 非批判性的即興演奏伙伴 "
為了評估他們開發的系統,研究人員進行了一項簡單的用戶研究,請來一批搞音樂創作的人來測試。
測試要求音樂人現場演奏音樂并分享他們對系統所作歌詞的反饋。
首先確定該系統是否能更準確地生成與音樂所產生的情緒相匹配的歌詞。
研究人員選用了 5 種不同樂器演奏的不同歌曲的片段,每段約 10 秒,用該模型的兩種變體(下圖中每組的第二三行)各生成一行歌詞,再用一個基線模型(下圖中每組第一行)生成歌詞。
生成示例如下:
測試者需對以上 3 種詞,進行打分,選出最匹配當前音樂的一種。
總共有 15 個人參與了這項研究,從下表可以看出,無論播放的歌曲類型如何,用戶都更喜歡后兩個模型的歌詞,而非基線模型的。
這說明,該系統可以生成匹配音樂風格的歌詞。
最后,通過一系列問卷調查顯示,大多數參與實驗的音樂人都覺得,LyricJam 是一個非批判性的即興演奏 " 伙伴 ",可以鼓勵他們即興創作并嘗試不同尋常的歌詞表達方式。
另外,即使中間改變音樂風格或嘗試加入新的和弦,歌詞也能實時做出抒情主題的變化。
最后研究人員表示,如果在更大的數據集上訓練,填的詞就更具有多樣性了。
感興趣的朋友可戳在線鏈接試玩,系統操作非常簡單,錄入一個音頻就可以:https://lyricjam.ai/