近日,超對稱與UCloud優刻得合作,將公司推出的3個大模型開源到UCloud官網,以“大模型+大算力“的方式,共同推進AICG創新應用。
2022年5月超對稱技術公司發布大語言模型Big Bang Transformer【乾元】的第一版BBT-1,10億參數預訓練語言模型,在中文金融語料上訓練而成,發布之后即獲得經濟金融領域客戶熱烈反饋,作為大模型底座已經為多家中國和海外機構提供服務。
近期,超對稱公司再推出BBT-2,這是一個基于120億參數的通用大語言模型,并在BBT-2的基礎上,訓練出代碼、金融、文生圖等專業模型。
超對稱技術公司將發布基于BBT-2的系列模型:
· BBT-2-12B-Text:120億參數的中文通用語言模型
· BBT-2.5-13B-Text: 130億參數的中文+英文雙語基礎模型
· BBT-2-12B-TC-001-SFT 經過指令微調的代碼模型,可以進行對話
· BBT-2-12B-TF-001 在120億模型上訓練的金融模型,解決金融領域任務
· BBT-2-12B-Fig:文生圖模型
· BBT-2-12B-Science 科學論文模型
通過與UCloud在算力和開源方面的合作,超對稱還將3個大模型開源到官網、Github和UCloud,后續用戶可直接在UCloud官方平臺通過GPU云主機的行業鏡像或算力平臺直接開箱使用這些模型:
BBT-1-0.2B
2億參數金融模型,包括三個不同預訓練方式進行訓練的模型, 訓了600億Tokens:
(1)BBT-1-0.2B-001:2億參數,金融模型,T5 Decoder+Encoder架構
(2)BBT-1-0.2B-002: 2億參數,金融模型,T5+GPT
(3)BBT-1-0.2B-003: 2億參數,金融模型,T5+UL2
BBT-1-1B
10億參數金融模型,T5 Encoder+Decoder架構,使用金融中文語料庫1000億tokens進行預訓練,包含社交媒體,財經新聞,券商研報,公司公告財報等數據.
BBT-2-12B-Text
120億參數基礎模型,GPT Decoder-Only 架構,未經指令微調,完成2000億token預訓練,模型性能還有較大提升空間,開發者可在通用模型上繼續訓練或進行下游任務微調。
BBT-2.5-13B-Text
130億參數基礎模型,GPT Decoder-Only 架構,未經指令微調,完成2000億中文+英文tokens預訓
UCloud官網開源模型使用流程
以下是超對稱技術公司基于BBT-2的系列模型介紹:
1. BBT-2-12B-Text 通用模型
BigBang Transformer[乾元]是基于GPT Decoder-only架構的大規模預訓練模型。繼2022年開源BBT-1-0.2B模型之后,正式開源最新系列的BBT模型:BBT-1-1B,BBT-2-12B-Text,BBT-2.5-13B-Text。預訓練語料庫覆蓋14個高質量數據源,覆蓋書籍、百科、論文、小說、新聞、政策文件、中文博客、社交媒體等多個數據源種類。BBT-2-12B-Text基于中文700億tokens進行預訓練,經過指令微調的BBT-2基礎模型可以回答百科類和日常生活的問題。BBT-2.5-13B-Text基于中文+英文 2000億tokens進行預訓練,暫時不開放基礎模型的問答對話接口。
模型開源后所有開發者可以:
可以直接調用大模型進行對話
在我們訓練的基礎上使用自由語料庫繼續訓練
對大模型進行微調訓練以滿足各種下游任務
2. BBT-2-12B-Text+Code 代碼模型
BBT-TC,是超對稱技術公司近期發布的 BBT-2 大模型系列中的代碼模型,在 百億基座模型BBT-2-12B-Text接續訓練代碼數據集,通過有監督指令微調(Supervised Fine-Tuning)解鎖模型的推理能力。該模型在專業評測中分數超過其他中國公司開發的同類模型,僅次于GPT-3.5。
開發者可以在超對稱公司官網https://www.ssymmetry.com測試BBT模型的代碼問答(僅應用于代碼生成場景,無法回答與代碼無關的問題)
詳情可見文章《超對稱技術公司的代碼大模型CodeBBT在專業評測中位居前列,僅次于GPT-3.5》
3. BBT-2-12B-TF-001 金融模型
超對稱公司于2021年便開始針對金融投資領域的應用,著手設計和訓練了一個大規模參數預訓練語言模型Big Bang Transformer乾元(BBT),目前發布了Base 版本2.2億參數和Large 版本10億參數以及最新的BBT2,120億參數通用模型。
BBT模型的目標是為金融投資建立統一的人工智能算法框架,基于transformer構建能融合訓練金融投資涉及的不同模態數據的架構。在統一架構的基礎上訓練大規模參數預訓練模型,隨著模型參數和訓練數據集繼續增大,超對稱團隊有希望開發出在金融領域接近人類智能水平的模型。作為金融領域的基石模型,BBT模型為所有金融投資,經濟分析,商業咨詢等場景的深度學習下游任務提供微調服務。
金融投資領域有大量從業機構和人員,大廠有財力雇傭算法工程師,小團隊卻用不起基本的文本抽取算法。BBT模型作為金融領域的算法基礎設施,讓所有從業者配備同級別的武器,讓全行業站在同一起跑線去競爭更優的投資策略,從而推動金融和經濟市場更高效的信息和要素流動。
為了更好地推進中文金融自然語言處理的發展,超對稱搜集和爬取了幾乎所有公開可以獲得的中文金融語料數據:
1)過去20年所有主流媒體平臺發布的財經政治經濟新聞
2)所有上市公司公告和財報
3)上千萬份研究院和咨詢機構的研究報告
4)百萬本金融經濟政治等社會科學類書籍
5)金融社交媒體平臺用戶發帖
經測試,BBT-TF在公告摘要任務場景超越ChatGPT:使用ChatGPT和BBT-TF對同一份公告,相同輸入,生成摘要并對比效果,發現BBT-TF更滿足實際運用場景。BBT-TF還可進行四舍五入的計算。在金融行業對數字高精度要求下,BBT-TF可對單位進行準確的換算。
超對稱已開發了11種已落地應用的下游任務,面向專業金融開發者API,已獲得中國及海外金融機構付費。
4. BBT-2-12B-Image文生圖模型
基于BBT2大語言模型,超對稱和中國專業圖庫公司聯合開發文生圖AIGC模型BBT-Fig,目前該模型向紡織行業,印刷,廣告,游戲等行業客戶提供文生圖應用,經過專業評測,BBT-Fig在紡織行上的應用效果比Stable Diffusion和文心一格,明顯更優。
BBT-Fig能夠生成非常逼真的圖像,并且具有可控的樣式和風格。在紡織行業中,BBT-Fig可以通過對不同紡織材料的圖像進行學習,生成具有紋理(可無縫拼接)、色彩(色彩亮度不會受訓練樣本明暗影響,為標準化設計用樣式)和設計元素(可隨意組合元素)的紡織品圖案,提高紡織品設計的效率和創新性。該技術還可用于家裝等等需要圖案設計的行業。
· 用于生成人造大理石花紋
5. BBT-2-12B-Science 科學論文模型
馬斯克認為AGI的終極測試是模型能發現新的物理定律。GPT-4在醫生資格考試、律師資格考試、AP考試、GRE上獲得不錯的分數,但目前還沒有證明其能有效地發現或輔助人類知識庫尚未存在的知識。
對于中國的大模型研發團隊,直接瞄準大語言模型用于科學發現是超越GPT-4的一個可能路徑。在科學研究上,研究人員可以使用語言模型來自動提取和分析論文中的主題、實驗方法、結果和結論,從而發現新的科學發現和研究方向。
BBT-Science大模型是基于BBT大模型在幾千萬篇科研論文上訓練構建的輔助科學發現的大模型,應用于物理、化學、生物、數學等不同學科的科研知識問題,可以提供三方面的能力:
1. 快速精準的知識檢索。這項能力和大模型在其他領域的對話能力相近。
2. 針對所研究領域的前沿問題提供新的ideas。這種新ideas產生于大模型在該領域的海量數據檢索和重新組合,發現前人未發現的可能性。
3. 利用多學科知識訓練出的能力提供跨學科的建議和洞見。這項能力潛力最大。
為了對科學大模型進行評測,超對稱技術公司與復旦、上海交大、浙大、南航、中山大學、北師大等多所大學合作,正在號召全球一線的科研人員共同構建一個最大的科研問題評測數據集Research QA。該數據集覆蓋數學、物理、化學、生物、地理地質、計算機、電子工程等主流科研領域。該數據集直接采集科研領域里前沿的研究課題作為問題,重點考察大模型回答的創新性。科學大模型將成為全球科研能力的底層引擎,帶來科研生產力的加速。