1、行業(yè)定義及發(fā)展歷程
自然語(yǔ)言處理(NLP)技術(shù)是人工智能的一個(gè)分支領(lǐng)域,專注于計(jì)算機(jī)與人類自然語(yǔ)言間的交互研究,旨在使計(jì)算機(jī)具備理解、生成與處理人類語(yǔ)言(涵蓋文本與語(yǔ)音形式)的能力。NLP 作為一種集計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)于一體的交叉技術(shù),具有多樣化、跨學(xué)科性、復(fù)雜性、交互性和不斷變化性的特點(diǎn)。
自然語(yǔ)言處理(NLP)的發(fā)展歷程可以分為四個(gè)主要階段:
(1)萌芽起步階段(20 世紀(jì) 50 年代— 60 年代)。NLP 研究始于機(jī)器翻譯研究,二戰(zhàn)期間,計(jì)算機(jī)在密碼破譯方面取得了巨大的成功,人們基于此開(kāi)展機(jī)器翻譯研究。但由于對(duì)人類語(yǔ)言、人工智能和機(jī)器學(xué)習(xí)結(jié)構(gòu)認(rèn)識(shí)不足,且計(jì)算量和數(shù)據(jù)量有限,最初的系統(tǒng)僅能進(jìn)行單詞級(jí)翻譯查詢及簡(jiǎn)單規(guī)則處理,如早期基于規(guī)則的機(jī)器翻譯系統(tǒng)。
(2)規(guī)則主導(dǎo)階段(20 世紀(jì) 70 年代— 80 年代)。一系列基于規(guī)則手工構(gòu)建的 NLP 系統(tǒng)出現(xiàn),其復(fù)雜性和深度逐步提升,開(kāi)始涉及語(yǔ)法和引用處理,部分系統(tǒng)可應(yīng)用于數(shù)據(jù)庫(kù)查詢等任務(wù)。隨著語(yǔ)言學(xué)和基于知識(shí)的人工智能發(fā)展,后期新一代系統(tǒng)受益于現(xiàn)代語(yǔ)言理論,明確區(qū)分陳述性語(yǔ)言知識(shí)及其處理過(guò)程,此階段以手工構(gòu)建的復(fù)雜規(guī)則系統(tǒng)為特點(diǎn),推動(dòng)了 NLP 在語(yǔ)言理解復(fù)雜性方面的進(jìn)步。
(3)統(tǒng)計(jì)學(xué)習(xí)階段(20 世紀(jì) 90 年代— 2012 年)。數(shù)字文本日益豐富,算法研究成為前景方向。初期通過(guò)獲取一定量在線文本提取模型,但單詞計(jì)數(shù)對(duì)語(yǔ)言理解提升有限,后領(lǐng)域轉(zhuǎn)向構(gòu)建注釋語(yǔ)言資源,利用有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)構(gòu)建模型,如構(gòu)建標(biāo)記單詞意義、命名實(shí)體實(shí)例或語(yǔ)法結(jié)構(gòu)的資源。這一時(shí)期重新定位了 NLP 研究方向,使得語(yǔ)言處理更加依賴于統(tǒng)計(jì)模型和算法,為后續(xù)深度學(xué)習(xí)時(shí)代的到來(lái)積累了數(shù)據(jù)和算法基礎(chǔ)。
(4)深度學(xué)習(xí)階段(2013 年至今)。深度學(xué)習(xí)方法的引入徹底改變了 NLP 工作模式。2013 年至 2018 年,深度學(xué)習(xí)構(gòu)建的模型能更好處理上下文和相似語(yǔ)義,如通過(guò)向量空間表示單詞和句子實(shí)現(xiàn)語(yǔ)義理解。2018 年起,NLP 成為大型自監(jiān)督神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的成功范例,Transformer 模型和預(yù)訓(xùn)練語(yǔ)言模型(如 BERT、GPT)進(jìn)一步提升了 NLP 的性能,推動(dòng) NLP 在各領(lǐng)域廣泛應(yīng)用并邁向新階段。
2、行業(yè)發(fā)展驅(qū)動(dòng)因素
國(guó)家政策支持與規(guī)范
NLP 在國(guó)家政策的強(qiáng)力支持、積極引導(dǎo)與嚴(yán)格規(guī)范下蓬勃發(fā)展。政府出臺(tái)了一系列扶持人工智能產(chǎn)業(yè)的政策,為 NLP 技術(shù)研發(fā)、創(chuàng)新應(yīng)用提供了堅(jiān)實(shí)的政策保障。例如,《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》強(qiáng)調(diào)要大力推進(jìn)數(shù)字技術(shù)創(chuàng)新應(yīng)用,其中包括人工智能相關(guān)技術(shù)在各領(lǐng)域的深度融合,為 NLP 技術(shù)在多行業(yè)的落地應(yīng)用提供了宏觀戰(zhàn)略指引,鼓勵(lì)企業(yè)和科研機(jī)構(gòu)積極探索 NLP 技術(shù)在提升數(shù)字化服務(wù)水平和優(yōu)化業(yè)務(wù)流程方面的創(chuàng)新實(shí)踐。同時(shí),近年來(lái)網(wǎng)信辦針對(duì) AIGC 頒布的管理辦法,從內(nèi)容審核、數(shù)據(jù)安全、倫理規(guī)范等多方面對(duì) NLP 技術(shù)在內(nèi)容生成領(lǐng)域的應(yīng)用進(jìn)行了細(xì)致規(guī)定,有效推動(dòng)行業(yè)在規(guī)范化的軌道上實(shí)現(xiàn)規(guī)模化發(fā)展。
傳統(tǒng)行業(yè)智能化需求不斷增加
隨著數(shù)字化進(jìn)程的加速,金融、醫(yī)療、法律等傳統(tǒng)行業(yè)面臨著海量數(shù)據(jù)處理與業(yè)務(wù)流程優(yōu)化的雙重挑戰(zhàn),對(duì)業(yè)務(wù)處理智能化水平的要求持續(xù)攀升。在金融領(lǐng)域,NLP 技術(shù)已成為提升投研效率與風(fēng)險(xiǎn)管理水平的重要工具。投研人員面對(duì)海量的財(cái)經(jīng)資訊、公司財(cái)報(bào)、市場(chǎng)動(dòng)態(tài)等信息時(shí),具備資訊分類、情感分析、自動(dòng)文摘、資訊個(gè)性化推薦等功能的自然語(yǔ)言處理產(chǎn)品能夠快速篩選出有價(jià)值的信息,精準(zhǔn)洞察市場(chǎng)趨勢(shì)與投資機(jī)會(huì),顯著提升決策效率與準(zhǔn)確性。在醫(yī)療行業(yè),NLP 助力病歷錄入實(shí)現(xiàn)自動(dòng)化與結(jié)構(gòu)化,大大減輕醫(yī)生的工作負(fù)擔(dān)。法律領(lǐng)域則借助 NLP 實(shí)現(xiàn)法律文書的快速生成、合同條款的智能審核、案例檢索與分析等功能,有效提升法律工作的效率與準(zhǔn)確率,降低人力成本與出錯(cuò)風(fēng)險(xiǎn)。傳統(tǒng)行業(yè)的這些智能化需求為 NLP 技術(shù)提供了廣闊的應(yīng)用場(chǎng)景與市場(chǎng)空間,成為推動(dòng) NLP 產(chǎn)業(yè)持續(xù)發(fā)展的強(qiáng)勁動(dòng)力。
3、行業(yè)發(fā)展現(xiàn)狀
產(chǎn)業(yè)鏈結(jié)構(gòu)
NLP 產(chǎn)業(yè)鏈由上游基礎(chǔ)層,中游技術(shù)層和下游應(yīng)用層共同構(gòu)成。
上游基礎(chǔ)層是整個(gè) NLP 行業(yè)的根基,主要涵蓋硬件設(shè)備、數(shù)據(jù)服務(wù)、開(kāi)源模型和云服務(wù)。硬件設(shè)備方面,為滿足大規(guī)模數(shù)據(jù)運(yùn)算需求,需配備高性能服務(wù)器、GPU、TPU 等專業(yè)芯片,這些硬件設(shè)施為復(fù)雜的 NLP 模型訓(xùn)練提供強(qiáng)大計(jì)算力支撐。數(shù)據(jù)服務(wù)方面,數(shù)據(jù)采集來(lái)源豐富多樣,如網(wǎng)絡(luò)爬蟲從海量網(wǎng)頁(yè)抓取文本,傳感器收集語(yǔ)音數(shù)據(jù)等,同時(shí)還涉及嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)清洗工作,去除重復(fù)、錯(cuò)誤、無(wú)關(guān)數(shù)據(jù)以確保數(shù)據(jù)精準(zhǔn)性,以及專業(yè)的數(shù)據(jù)標(biāo)注流程,依據(jù)不同 NLP 任務(wù)需求,對(duì)文本進(jìn)行詞性、語(yǔ)義、實(shí)體等標(biāo)注,為模型訓(xùn)練提供高質(zhì)量素材,奠定模型學(xué)習(xí)與優(yōu)化的基礎(chǔ)。開(kāi)源模型為行業(yè)發(fā)展提供了便捷的技術(shù)起點(diǎn),眾多科研機(jī)構(gòu)和開(kāi)發(fā)者貢獻(xiàn)的開(kāi)源 NLP 模型,如 BERT 等,企業(yè)和研究人員可基于這些開(kāi)源成果進(jìn)行二次開(kāi)發(fā)與優(yōu)化,加速技術(shù)創(chuàng)新迭代。云服務(wù)則以其彈性計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源優(yōu)勢(shì),降低 NLP 技術(shù)研發(fā)與應(yīng)用的門檻。
產(chǎn)業(yè)鏈中游為 NLP 技術(shù)與產(chǎn)品研發(fā)、服務(wù)。這里匯聚了眾多先進(jìn)的自然語(yǔ)言處理技術(shù),如基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)、注意力機(jī)制(Attention)以及近年來(lái)熱門的 Transformer 架構(gòu)等。主要競(jìng)爭(zhēng)者可分為互聯(lián)網(wǎng)企業(yè)和 AI 企業(yè),互聯(lián)網(wǎng)企業(yè)具備較完善的產(chǎn)品生態(tài)、豐富的產(chǎn)品經(jīng)驗(yàn)和數(shù)據(jù)以及龐大的客戶資源,能夠利用 C 端優(yōu)勢(shì)推動(dòng)產(chǎn)品創(chuàng)新與應(yīng)用。AI 企業(yè)則具有較強(qiáng)的技術(shù)積累,以垂直領(lǐng)域和細(xì)分場(chǎng)景為突破口,布局多行業(yè)進(jìn)行定制化產(chǎn)品開(kāi)發(fā)。
產(chǎn)業(yè)鏈下游為 NLP 產(chǎn)品的應(yīng)用領(lǐng)域,可從應(yīng)用場(chǎng)景與應(yīng)用行業(yè)兩個(gè)維度進(jìn)行劃分。主要應(yīng)用場(chǎng)景包括智能語(yǔ)音、智能客服、智能風(fēng)控、智能監(jiān)管等;主要應(yīng)用行業(yè)包括金融、電商、出行、政務(wù)等。智能語(yǔ)音場(chǎng)景下,NLP 技術(shù)實(shí)現(xiàn)語(yǔ)音識(shí)別、語(yǔ)音合成與語(yǔ)音交互功能,如智能語(yǔ)音助手可準(zhǔn)確識(shí)別用戶語(yǔ)音指令并給予語(yǔ)音回應(yīng),廣泛應(yīng)用于智能手機(jī)、智能家居等設(shè)備中。智能客服場(chǎng)景通過(guò)理解客戶咨詢意圖,快速解答問(wèn)題、處理投訴,不僅提高客戶滿意度,還降低企業(yè)人力成本,在電商、金融等行業(yè)應(yīng)用廣泛。智能風(fēng)控場(chǎng)景借助 NLP 對(duì)海量金融數(shù)據(jù)進(jìn)行分析,包括新聞?shì)浨椤⑵髽I(yè)財(cái)報(bào)、社交言論等,提前預(yù)警金融風(fēng)險(xiǎn),輔助金融機(jī)構(gòu)制定風(fēng)控策略;智能監(jiān)管場(chǎng)景利用 NLP 對(duì)監(jiān)管政策文件、企業(yè)合規(guī)報(bào)告等文本進(jìn)行分析解讀,提高監(jiān)管效率與精準(zhǔn)度,在金融監(jiān)管、市場(chǎng)監(jiān)管等領(lǐng)域發(fā)揮重要作用。
市場(chǎng)規(guī)模
近年來(lái),隨著人工智能技術(shù)整體的蓬勃發(fā)展以及各行業(yè)數(shù)字化轉(zhuǎn)型需求的日益迫切,NLP 技術(shù)憑借其在文本理解、生成與交互方面的獨(dú)特優(yōu)勢(shì),在眾多領(lǐng)域迅速滲透。從智能客服在電商、金融等行業(yè)的廣泛應(yīng)用,到智能寫作助手在傳媒、廣告等領(lǐng)域助力內(nèi)容創(chuàng)作,都彰顯出 NLP 技術(shù)的商業(yè)價(jià)值。據(jù)賽迪顧問(wèn)數(shù)據(jù),2024 年 NLP 市場(chǎng)規(guī)模達(dá) 308.5 億元,預(yù)計(jì) 2030 年將達(dá) 2,105.0 億元,年均復(fù)合增長(zhǎng)率達(dá)到 36.5%。
4、行業(yè)發(fā)展趨勢(shì)
趨勢(shì)一:多模態(tài)融合引領(lǐng)交互革命
隨著技術(shù)的持續(xù)演進(jìn),NLP 將不再局限于單純的文本處理,而是與圖像、音頻等其他模態(tài)深度融合。在智能設(shè)備領(lǐng)域,未來(lái)的智能家居系統(tǒng)能通過(guò)語(yǔ)音指令(NLP)結(jié)合攝像頭圖像識(shí)別(CV),精準(zhǔn)理解用戶場(chǎng)景與需求,實(shí)現(xiàn)更智能的家居控制。例如,用戶說(shuō) " 關(guān)掉客廳里有人的那盞燈 ",系統(tǒng)能迅速定位客廳場(chǎng)景中的人物與對(duì)應(yīng)燈具并執(zhí)行操作。在教育科技方面,多模態(tài) NLP 可助力打造沉浸式學(xué)習(xí)環(huán)境,教材中的文字結(jié)合圖像、音頻講解,NLP 技術(shù)根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度與提問(wèn),以語(yǔ)音、文字等多種形式交互反饋,極大提升學(xué)習(xí)效果與體驗(yàn)。
趨勢(shì)二:模型輕量化與個(gè)性化定制并行
一方面,為滿足移動(dòng)端與邊緣計(jì)算設(shè)備的需求,NLP 模型將不斷輕量化。通過(guò)模型壓縮技術(shù)、新型算法架構(gòu)優(yōu)化等手段,降低模型對(duì)計(jì)算資源與存儲(chǔ)的要求,使得智能語(yǔ)音助手在手機(jī)、可穿戴設(shè)備等資源受限的終端上也能高效運(yùn)行,且響應(yīng)速度更快、能耗更低。另一方面,針對(duì)不同行業(yè)、不同用戶群體的個(gè)性化定制成為趨勢(shì)。企業(yè)可依據(jù)自身業(yè)務(wù)數(shù)據(jù)訓(xùn)練專屬的 NLP 模型,如醫(yī)療企業(yè)構(gòu)建專業(yè)醫(yī)學(xué)術(shù)語(yǔ)理解與分析模型用于病歷處理與醫(yī)學(xué)研究;金融機(jī)構(gòu)打造貼合自身風(fēng)控與投資策略的語(yǔ)言模型用于市場(chǎng)分析與決策,實(shí)現(xiàn) NLP 服務(wù)的精準(zhǔn)化、專業(yè)化,深度賦能各行業(yè)數(shù)字化轉(zhuǎn)型與創(chuàng)新發(fā)展。
來(lái)源:36氪