為什么一個語言學習軟件,能被 OpenAI 連投四輪?
2018 年 1 月,Speak 正式在韓國上線應用商店。上線當天共 3 人付費,收入 18 美元。這是 Speak 成立 3 年來第一筆用戶付費收入。
Speak 是兩位天才少年共同打造的一款 AI 語言學習產品。
一位名叫 Andrew Hsu,生于中國臺灣,在美國長大,從小便是華盛頓各大媒體筆下的天之驕子。Hsu 5 歲能解代數題,7 歲因太聰明而輟學開始家庭教育(Home-schooling),用 1 年時間學完了從小學到初中的課程;12 歲考入華盛頓大學,16 歲從華盛頓大學畢業時手握三個理學學士學位;19 歲成為斯坦福大學神經科學項目四年級博士候選人后輟學創業,成為 Peter Thiel"20 Under 20" 計劃的一期學員,后來成為首位拿到 Google Venture 等知名 VC 投資的創業者。
另一位名叫 Connor Zwick,從 13 歲開始編程,曾被澳大利亞科技網 Nettuts.com 聘請擔任網站作者;高二時開發一款語言學習應用 Flashcard+,用戶最高達 500 萬,最終被上市教育企業 Chegg 收購。之后,Connor 入學哈佛,但只上了一年課便輟學創業,成為 "20 Under 20" 計劃二期學員并結識 Hsu。
2016 年,二人共同創辦語言學習應用 Speak,試圖借助最新的 AI 技術,打造一個 "AI tutor",讓每位語言學習者享受到個性化教育,真正學會 " 說 " 英語。
為實現這個目標,成立以來,Speak 團隊用了幾年時間反復試驗 PMF。而上線首日的 18 美元讓團隊第一次看到希望,也為今天的 10 億美元估值寫下序章。
" 小天才組合 "
2011 年,Peter Thiel 發起 20 Under 20 計劃,鼓勵有想法的學生輟學或暫時休學創業。
同年,年僅 19 歲的天才少年 Andrew Hsu 從斯坦福輟學,成為 20 Under 20 的一期學員,并創辦 Airy Labs。Airy Lab 希望針對兒童開發出能被家長們廣泛認可的,具有教育意義的社交游戲,真正實現 " 寓學于樂 "。
當時,Hsu 天才少年的光環,Peter Thiel 的背書,以及超前的教育理念讓 Airy Labs 成為 VC 眼中的一顆新星。Airy Labs 成立不久便獲得 150 萬美元種子輪融資,投資方大佬云集,包括 Google Ventures、Foundation Capital 和 Playdom 創始人 Rick Thompson。拿到融資后,Airy Labs 的團隊迅速擴充至 20 人,Hsu 也成為媒體口中的創業明星。
然而,一時風光無兩的 Airy Labs 僅存活了不到 1 年。
Hsu 的天賦并未在經營公司中體現,他的父母成為公司真正的掌舵人,并逐漸將公司變成了一個 " 家庭作坊 "。
Hsu 的父母近乎像管孩子一樣管理 Airy Labs,他們制定的一系列管理制度在員工眼中都很 " 糟糕 "。例如,上午 9 點到下午 6 點不能在辦公室大聲說話,必須通過電子郵件或通訊軟件交流;部分成員需要在工作結束后向 Andrew Hsu 或其父母匯報工作,經常等到晚上 9、10 點甚至更晚才下班,而且每周通常要工作 6~7 天。
" 管理層與父母不同,他們肯定不愛我們。他們要求的工作時間在他們所在的國家可能是正常的,但在這里是不可接受的。我認為他們沒有根據文化差異進行調整。" 一位離職員工曾抱怨。
除管理問題外,Airy Labs 的離職員工曾透露,公司并沒有清晰的愿景和戰略布局。公司網站上描述的愿景是 " 為兒童打造下一代社交學習游戲 ",但公司卻沒幾個全職的游戲設計師。在這種情況下,公司卻一連發布 7 款免費產品,幾個月后才引入收費機制,導致公司一直燒錢,卻沒有收入。
面對如此局面,Hsu 一度寄希望于 A 輪融資能提供更多資金維持運轉。但最終,員工們沒有等到 A 輪融資,而是減薪裁員、公司倒閉。
創業失敗的教訓慘痛,但 Andrew Hsu 改變教育的熱情卻絲毫不減。正是這次創業經歷,他認識了 20 Under 20 計劃的二期學員 Connor Zwick。
Connor Zwick 從 13 歲開始編程,曾被澳大利亞科技網 Nettuts.com 聘請擔任網站作者。高二時,Connor Zwick 一度對時下的教育體制感到失望,希望用創新技術實現真正的 " 因材施教 "。于是,Zwick 開發了語言學習應用 Flashcards Plus,用戶可以把單詞和短語的語音制作成電子學習卡片反復練習。
" 我當時的想法是,如果能將這些知識點匯總成某種知識圖譜,就能生成任何內容、教授任何知識,并創造出一個無所不知的導師。"Connor 近期回憶道。但顯然,當時的技術水平難以滿足這個愿景。最終,Flashcards Plus 全球用戶量達到 500 萬,2013 年被教育科技上市公司 Chegg 收購。
之后,Connor 考入哈佛,在哈佛大學學習一年后,便拿下 10 萬美元的泰爾獎學金和 Y Combinator 提供的 15 萬美元投資輟學創業,開發了 Coco Controller,曾和 30 家游戲企業建立聯系。
直到 2016 年,Andrew Hsu 和 Connor Zwick 都看到了在 AI 教育領域再次出發的機會。
AlphaGo 戰勝李世石后,深度學習范式成為 AI 界的新熱點,大量人工智能論文問世,Andrew Hsu 和 Connor Zwick 在硅谷親眼見證了一切的發生。
" 那時的模型更加具體,比如語音模型、圖像模型。我們看到這些模型即將與人類一樣好,甚至比人類更好。"Connor 曾對媒體表示," 當時只是覺得這東西很酷,想用 AI 來打造一些有趣的東西。"
他們用一年時間研究 AI,甚至到斯坦福蹭課學 AI。期間,他們嘗試開發了各種不同的算法,還嘗試過不少計算機視覺應用,例如用 AI 定制服裝,或應用于醫學影像測量人體指標,以及用深度學習預測天氣。
但二人發現語音識別是效果最驚艷的。當時,他們在 YouTube 上隨機收集了一些語音數據,構建了一個語音識別系統,不僅能理解用戶說話的內容,還能理解不同口音。
用隨機數據訓練的模型尚且有這么好的效果,如果質量更高的數據呢?于是,二人提出一個技術假設:是否能構建一種真正可用的產品,從中收集足夠的用戶數據,以供算法使用,改善建模,優化產品體驗,進而獲取更多的數據,形成良性的數據循環?
在這個假設之上,Speak 成立了。
" 先有雞 " 還是 " 先有蛋 "?
或許是有了此前創業失敗的經驗,Speak 從創辦之初就制定了清晰的發展路徑。
Andrew Hsu 和 Connor Zwick 二人一致認為,除非學習者移居到英語母語地區,否則大概率只能學到一手 " 啞巴英語 ",無法正常交流。因此,Speak 的愿景就是為每一位用戶打造一位個性化的 "AI tutor",讓想學英語的人能真正會說會用。
目標很清晰,問題在于如何實現。
Speak 成立初期,團隊遇到了經典的 " 先有雞 " 還是 " 先有蛋 " 的問題——要建立強大的 AI 模型,就需要大量多元、高質量的語音數據喂給模型。但要獲得數據,要么需要全程手動搜集,成本高昂;要么就需要創建一款可以收集該類數據的產品,但好的產品體驗又建立在強大的模型能力之上。
權衡過后,Speak 并未直接自研模型,而是在當時的技術水平下,先推出一款用戶可接受的產品,跑通 PMF,用戶逐漸增長后,Speak 再根據用戶數據微調自己的模型,形成數據飛輪。
起初,Speak 面向全球推出產品做用戶測試,每個市場都有 AI 對話功能,用戶可以選擇一個類別,選擇喜歡的話題和 AI 簡短對話。但試驗發現效果并不好,用戶基本會在產品發布 30 天后流失。
這個結局或許并不意外。不同地區用戶的學習需求、習慣文化背景不同,很難一概而論,而且語言學習市場本就競爭激烈,已經有 Duolingo、Babbel 等巨頭占領市場,很難正面 " 硬剛 "。此外,當時的語音識別技術也不足以識別全球各地的語音差異。
在 Andrew Hsu 和 Connor Zwick 苦悶之際,投資人建議先把公司規模做起來,但二人很警惕這種做法。直到 2023 年 6 月,成立七年的 Speak 也只有 30 多名員工。
最終,他們決定先從單一市場攻破,以便集中精力用有限的資源快速驗證和迭代產品。
2019 年,Speak 正式進軍韓國市場。此前,Speak 進行了一番嚴格的市場調研。他們租了一個小房間做小規模的用戶測試,給每一位參與測試的用戶發一部測試手機,并全程記錄用戶的使用過程。
他們發現,用戶真正使用產品的時間大多在通勤的時候。抓住通勤時段培養起用戶的學習習慣后,用戶在其他時間也會自然而然用 Speak 產品練習英語口語。
意識到這一點后,Speak 發現產品的使用量、轉化率、留存率都大幅提升,Speak 才算初步跑通了 PMF。但在 Hsu 看來,"PMF 不僅僅是單點的事物,而是一個連續的過程。你改進 PMF 的程度越大,你的增長速度通常就越快 "。
之后,Speak 不斷更新產品功能和課程內容,并不斷優化產品的交互設計。" 任何形式的工具提示、用戶教育或功能解釋,都意味著我們的設計還不夠完善。"Connor 認為,應把盡可能減少用戶教育作為一個目標。而 Speak 將這一點做到了極致。
很多語言學習 App 的內容會采用算法推薦機制,新用戶進入應用后,通常會做一份簡單的問卷或用戶引導流程,選擇自己的學習動機、想學的內容等,算法會根據用戶反饋給其首頁推薦大量信息。但在 Connor 看來,這些信息并非真正有用。" 過去我們想要獲得有價值的信息都要自己主動去搜索,而那些被推送過來的信息有 99% 都毫無價值,比如垃圾郵件和推送通知。"
因此,Speak 借助 AI 能力打造了一個全新的界面解鎖方式。
在產品首頁,Speak 沒有給任何新用戶引導流程,只有一個簡單的問題:" 你為什么想學英語?" 然后用戶就可按下 " 開始 " 按鈕說話。每個用戶都會用不同的情緒、語音語調回復不同的答案。Speak 會根據這些信息為用戶構建個性化體驗。
不過,Connor 曾表示,雖然語音到語音模型效果越來越好,但 " 語音并不總是最佳的人機交互方式,很多時候,打字和點擊圖標是更快捷的方式 "。因此,Speak 試圖探索一種 " 混合界面 ",讓用戶可以在隨時都自由選擇說話還是打字。
同時,為了更好地理解用戶,Speak 在后臺運行時,例如在夜間,模型會利用閑置 GPU 資源分析用戶數據,從而解析用戶感興趣的課程,并在第二天的學習中給用戶推送新的課程。在 Connor 看來," 思維模型 " 真正的價值正在于,即使用戶沒有使用產品,模型也在后臺不斷處理著用戶數據,分析用戶需求。這種模式也決定,Speak 的產品迭代依賴于模型有更強的語音識別、理解和生成能力。
2022 年,Speak 遇到 OpenAI,PMF 又有了質的飛躍。
綁定 OpenAI,自建 AI 團隊
從 2022 年起,OpenAI 連續四次投資 Speak。
OpenAI Startup Fund 成立于 2021 年 5 月,已投資數個 AI 應用項目,包括 Descript、Anysphere、Diagram、Harvey AI、Kick、Mem 和 Speak 等,涉獵 AI 音視頻編輯、AI 編碼工具、AI 產品設計、AI 法律顧問、會計軟件等多個領域的落地應用。其中,Speak 是唯一一個教育類軟件。
對于投資的創業項目,OpenAI 通常不僅給錢,還給技術。Speak 也不例外。
2023 年 3 月,Speak 先后官宣了和 OpenAI 的三項合作:
3 月 1 日,宣布成為 OpenAI 全新 "Whisper" 模型 API 的首發合作伙伴。Whisper 有更強的語音識別能力,在處理帶口音的語音以及無縫處理多語言語音(代碼切換)方面的表現更好。
3 月 14 日,宣布其作為早期訪問者,將 GPT-4 接入其 "AI tutor" 中,能讓 AI tutor 實現高度個性化和上下文相關的反饋。同時,GPT-4 能夠生成更高準確度和連貫性的文本,讓用戶和 AI tutor 進行更自然、更有針對性的互動。
3 月 23 日,Speak 宣布與 OpenAI 合作啟動 ChatGPT 插件的 Alpha 版本,用戶可從 ChatGPT 的界面直接訪問 Speak。
但 Speak 并未把全部希望寄托在 OpenAI 上。在和 OpenAI 深度綁定的同時,Speak 也在 2023 年著手搭建了自己的 AI 團隊,開始利用過去幾年從產品上積累的數據集微調自己的語音模型。
2024 年,Speak 在官網博客中宣布升級了核心語音識別系統。
系統升級前,Speak 分別在 iOS 和 Android 系統上運營著不同的 ASR(自動語音識別)系統,還會用自有數據訓練端側小模型適配特定型號的移動設備,也會采用第三方語音識別服務。
但長此以往,Speak 便發現了一些弊端。例如,為了支持比較老的設備,Speak 使用了參數規模更小、計算能力較低的模型,對語音識別效果較差;第三方語音識別服務往往也難以識別口音較重的語音,會影響用戶體驗;Speak 必須維護 iOS 和 Android 兩套語音系統,導致 " 事倍功半 "。
而系統升級后,Speak 基于內部數據集微調了 Conformer 系列的語音識別模型,該數據集包含了用戶數千小時帶有濃重口音的英語語音音頻。
此外,Connor 認為:" 模型評估非常困難且重要。對于我們的機器學習團隊來說,最重要的可能是評估,特別是對于大型語言模型經常執行的開放式任務,如果你能夠提煉出完美的評估標準,你基本上就提煉出了你正在優化的目標問題。" 因此,Speak 根據用戶數據,構建了自定義測試集,主要評估語音模型根據音頻轉錄單詞的單詞錯誤率(WER)。評估發現,微調過后的模型單詞錯誤率比通用模型降低 60% 以上。
內部 Speak 測試集上的單詞錯誤率(WER),圖片來源:Speak 官網
目前,Speak 微調的 Conformer-CTC 模型僅用于英語語音識別,但 Speak 透露,該模型未來也將擴展到西班牙語等其他語言中。此外,Speak 還在開發超出單詞之外的其他語音和語言模態(例如,用于發音反饋的音素)。
在用自有數據微調模型的同時,Speak 依然抓緊每一次與 OpenAI 合作的機會。因為在 Connor 看來," 語言學習和實時對話練習,是語音到語音技術的最佳用例,因此我們抓住機會與 OpenAI 合作,并將這項技術深度嵌入我們的核心體驗中。" 博客寫道。
2024 年 10 月 1 日,Speak 又與 OpenAI 合作測試了 GPT-4o 的實時 API,推出 Live Roleplays,使用戶能夠在各種角色扮演情境中進行沉浸式、逼真的口語練習。借助 GPT-4o 上的實時 API,Speak 的 AI tutor 可以像人類教室一樣快速或更快地響應,并能夠理解并提供關于語音各方面的反饋,而不僅僅是純文本轉錄,如語調、發音、韻律等。
不過,Speak 在博客中寫道,語音到語音模型的指令跟隨能力仍然不如文本模型,目前還不擅長更細致的語言學習特定任務,如發音指導和反饋。
語言學習界最懂 AI 的公司
2024 年 12 月,Speak 宣布完成 7800 萬美金 C 輪融資,由 Accel 領投,OpenAI Startup Fund、Khosla Ventures 和 Y Combinator 等跟投。本輪投后估值 10 億美元,Speak 也被看作大模型浪潮中第一家真正以 C 端應用立足的獨角獸。
除獲得資本青睞外,Speak 的產品表現也得到市場認可。據 " 投資實習所 " 的信息,截止 2024 年 12 月,Speak 的 ARR 已經接近 5000 萬美元,年增長率達到 100%。
Speak 主要的商業收入都來自 C 端,沒有免費版本,只為用戶提供七天免費試用,之后就按月或按年收費,收費標準分為 2 檔:
Premium 計劃:$99.99/ 年,每月 2000 個 AI tutor 積分;
Premium plus 計劃:$234.99/ 年,每月 10000 個 AI tutor 積分。
(AI tutor 積分對應的是用戶和 AI Tutor 的對話字數,每和 AI 對話一個詞即 1 積分。)
在 Speak 的實際測試中,2000 家教積分學習 5 天就能消耗完,這也意味著對于有固定學習習慣的用戶而言,Premium Plus 方案更劃算。
2024 年,Speak 也開始拓展 to B 業務。Speak for Business 可以練習特定的商務對話,例如與供應商和客戶的專業討論等。目前,Speak for Business 擁有超過 200 個客戶,員工采用率為 85%。
Speak 為何能在一眾語言學習市場激烈的競爭中脫穎而出?答案或許就是 " 聚焦 " 二字。
Speak 自創立之初的目標就很聚焦,圍繞 " 啞巴英語 " 這個核心痛點打造產品體驗,并一直堅持產品導向的思路,持續迭代 PMF。最近的訪談中,Connor 表示 Speak 一直非常注重課程內容,現在內部仍會對 AI tutor 的課程內容進行 A/B test。
同時,兩位創始人很清楚,其產品體驗的迭代很大程度上依賴于底層 AI 模型的能力。因此,在 OpenAI 強勢爆發后,Speak 主動擁抱大模型。找到 OpenAI 這個強勢的合作伙伴后,Speak 也并未在 AI 的火爆中迷失方向,盲目高估模型的能力,而是組建自己的 AI 團隊,利用多年積累的用戶數據微調語音模型,升級語音識別系統,繼續迭代產品功能。
套用近兩年很時髦的概念,Speak 是一個更加 "AI 原生 " 的產品。相比其他語言學習應用,Speak 更像一家技術公司。按對話積分消耗收費的模式,也和大模型按 token 消耗量計費的模式很相似,甚至營銷文案也相應調整為類似 "20 分鐘內說 100 句話 " 的口號。
同時,為了在單一市場打造最佳產品體驗,Speak 也十分注重產品設計和營銷手段的本地化。在正式進入韓國市場前,Speak 做了充分的市場調研,并在后期搭建了一個世界級的本地營銷團隊,根據韓國市場的用戶特點定制相應的營銷策略,創建了一個獨特的品牌形象。
Andrew Hsu 曾透露,截止 2024 年 12 月,Speak 應用的下載量已超過 1000 萬次, 每位用戶每天的使用時間約為 10-20 分鐘。
目前,Speak 正在將韓國市場的成功經驗逐漸帶到其他市場進行驗證。2022 年底,Speak 開始開拓日本市場;2024 年下半年,Speak 在中國臺灣市場的收入開始快速增長。
不過,Speak 目前主要活躍在不以英語為母語的市場。相比之下,歐美等以英語為母語的市場則由 Duolingo、Babbel 等老牌語言學習軟件占領;微軟、谷歌等大廠也對語言學習應用虎視眈眈,真正激烈的競爭風暴或許還沒有到來。
來源:創業邦