經濟新常態(tài)下,如何對海量數據進行分析挖掘以支撐敏捷決策、適應市場的快速變化,正成為企業(yè)數字化轉型的關鍵。機器學習算法能識別數據模型,基于規(guī)律完成學習、推理和決策,正廣泛的應用在金融、消費品與零售、制造業(yè)、能源業(yè)、政府與公共服務等行業(yè)的各種業(yè)務場景中,如精準營銷、智能風控、產品研發(fā)、設備監(jiān)管、智能排產、流程優(yōu)化等。企業(yè)傳統(tǒng)的機器學習雖然能有效支撐業(yè)務決策,但由于嚴重依賴數據科學家,其技術門檻高、建模周期長的特點正成為企業(yè)實現數據驅動的阻礙。數據科學與機器學習平臺是指覆蓋數據采集、數據探索、數據處理、特征工程、模型構建、模型訓練、模型部署與發(fā)布、模型管理與運營等建模全流程的平臺,提供一站式建模服務,能顯著提升建模效率、降低建模門檻。數據科學與機器學習平臺能支持并賦能企業(yè)各業(yè)務場景實現智能決策,幫助企業(yè)打造數據驅動型組織。本報告對數據科學與機器學習平臺市場進行重點研究,面向金融、消費品與零售、制造與能源、政府與公共服務等行業(yè)企業(yè),以及人工智能軟件與服務提供商的數據部門、業(yè)務部門負責人,通過對業(yè)務場景的需求定義和代表廠商的能力評估,為企業(yè)數據科學與機器學習平臺的建設規(guī)劃、廠商選型提供參考。
1. 2023年數據科學與機器學習平臺市場規(guī)模達到55億元
圖1:2022-2026年數據科學與機器學習平臺市場規(guī)模
據愛分析推測,2022年數據科學與機器學習平臺市場規(guī)模為41億元,2023年將達到55億元,同比增長35%。未來愛分析測算2026年數據科學與機器學習平臺市場規(guī)模將達到154億元,2022-2026四年CAGR為40%。未來幾年,數據科學與機器學習平臺市場的快速增長主要受AI大模型驅動。ChatGPT的爆火推升了企業(yè)對生成式大模型的認知,也提高了企業(yè)對AI解決方案的預算投入,數據科學與機器學習模型作為AI解決方案的基礎設施建設,將與AI解決方案一起保持高速增長。目前,數據科學與機器學習平臺市場在金融、電信、互聯網等行業(yè)滲透率最高;大中型企業(yè)正加速平臺落地。分行業(yè)來看,受數據體量和質量水平影響,數據科學與機器學習平臺在金融、電信、互聯網等行業(yè)滲透程度較高。大型企業(yè)均已通過采購或自建的方式搭建起數據科學與機器學習平臺,中型企業(yè)也在加速部署落地。其次是政府機構,數據科學與機器學習平臺在省級部門單位的滲透率逐漸提升。此外,數據科學與機器學習平臺在零售、新能源、工業(yè)、醫(yī)療等行業(yè)的滲透率較低,其中大型企業(yè)尚處于引入、籌備階段。從企業(yè)規(guī)模來看,大中型企業(yè)的業(yè)務線條復雜、潛在AI應用場景數量可觀,且自身技術人員儲備充足,從長遠來看,使自身具備AI建模能力是更持久、性價比也更高的方式,因此待數據條件成熟后大中型企業(yè)更傾向引入數據科學與機器學習平臺;小型企業(yè)業(yè)務簡單,技術人員有限,更傾向直接從算法商店直接購買成熟的AI算法部署實施,實現AI應用的快速驗證,后續(xù)AI應用場景增多或是采購的算法不支持個性化業(yè)務場景時,才會考慮采購數據科學與機器學習平臺。2. 大模型將升級平臺使用體驗,成為廠商差異化競爭關鍵
AI大模型熱潮激發(fā)大模型與千行百業(yè)的結合,大模型與數據科學與機器學習平臺的融合已明確成為數據科學與機器學習平臺的進化新方向。數據科學與機器學習平臺廠商在功能上區(qū)別不明顯,平臺使用體驗成為差異化關鍵,大模型與數據科學與機器學習平臺的融合能有效改善平臺使用體驗,將成為廠商獲取未來競爭優(yōu)勢的發(fā)力點。據愛分析調研,廠商對大模型與機器學習平臺的融合實踐路徑主要基于以下三種形式展開:
圖2:大模型與數據科學與機器學習平臺融合形式
通過預訓練大模型進行智能標注,如應用CV大模型對圖片、語義進行智能標注,高效生成訓練數據。
用大模型對業(yè)務創(chuàng)新思路進行快速初步驗證。大模型的通用性使得它能快速給出結果,用戶可先通過大模型驗證業(yè)務思路后,再使用數據科學與機器學習平臺開發(fā)訓練小模型以保證模型效果和穩(wěn)定性。
通過大模型實現建模全流程智能化。既有的低代碼建模仍需要人工拖拉拽進行配置,過程中也需要對算子細節(jié)進行設置,人工操作不可避免,而自動化建模方式下,缺少數據科學家的專業(yè)性,只能適用于分類、回歸等簡單的場景。大模型建模的理想愿景是實現用戶通過自然語言與大模型互動,大模型可自動化完成數據準備、模型訓練、模型部署全流程。在這個過程中,大模型會為用戶提供數據科學家級別的專業(yè)引導。這一方式的落地難度系數極高,需完成包括不限于完成從自然語言(NLP)到數據處理(SQL)的轉化、數據的圖形化、建立模型訓練知識庫等過程。
圖3:人通過自然語言與大模型互動智能完成建模全流程
目前,前兩種形式已經落地實現,第三種形式還處于研發(fā)階段。3. 數據科學與機器學習平臺廠商應滿足企業(yè)信創(chuàng)需求信創(chuàng)國產化已經成為國家發(fā)展的重要戰(zhàn)略之一。隨著信創(chuàng)產業(yè)的發(fā)展,以金融、政府為代表的領域正沿著從基礎設施到支撐平臺再到企業(yè)應用的思路進行國產化替換,目前,大中型企業(yè)及機構在基礎設施端的國產替換完成度較高,包括芯片、服務器、操作系統(tǒng)、數據庫、中間件等。數據科學與機器學習平臺支撐數據資產價值變現的關鍵環(huán)節(jié),且與以上基礎軟硬件關系緊密,需要適應企業(yè)國產化環(huán)境。這要求技術廠商盡快完成平臺軟件與國產化軟硬件環(huán)境的兼容、適配及認證,保證平臺能在國產CPU、AI加速芯片以及操作系統(tǒng)上穩(wěn)定運行。圖4:數據科學與機器學習平臺的國產化適配要求
愛分析對本次數據科學與機器學習平臺項目的市場分析如下。同時,針對參與此次報告的部分代表廠商,愛分析撰寫了廠商能力評估。數據科學與機器學習平臺
數據科學與機器學習平臺是指覆蓋數據采集、數據探索、數據處理、特征工程、模型構建、模型訓練、模型部署與發(fā)布、模型管理與運營等建模全流程的平臺,提供一站式建模服務,能顯著提升建模效率、降低建模門檻。大模型開發(fā)平臺也屬于數據科學與機器學習平臺的范疇。
金融、消費品與零售、制造與能源、政府與公共服務等行業(yè)企業(yè),以及人工智能軟件與服務提供商的數據科學家、風控建模人員、營銷建模人員、業(yè)務分析人員、模型應用人員。企業(yè)對機器學習的應用越來越廣泛。一方面,數據量的激增、算法的突破以及CPU、GPU、DPU等多種算力技術的發(fā)展,為以機器學習為基礎的數據挖掘、計算機視覺、自然語言處理、生物特征識別等技術在企業(yè)的應用奠定了技術基礎;另一方面,市場環(huán)境的快速變化對企業(yè)決策敏捷性要求增強,不僅推動企業(yè)將機器學習模型應用到營銷、廣告、風控、生產等更多業(yè)務場景,也對模型精度、模型開發(fā)敏捷性以及模型應用廣度提出更高要求。然而,機器學習技術門檻高、建模周期長,難以滿足企業(yè)通過基于機器學習模型提升經營效率的需求。數據科學與機器學習平臺具備工具豐富集成、建模效率提升以及模型資產復用等特點,能充分滿足企業(yè)對智能應用的需求,正成為企業(yè)智能化基礎設施的必要構成。不同企業(yè)對數據科學與機器學習平臺的需求不同,其差異取決于企業(yè)自身機器學習建模能力和對算法的需求。1. 對于金融、消費品與零售、制造與能源、政府與公共服務等行業(yè)企業(yè)除大型金融機構外,傳統(tǒng)企業(yè)普遍不具備機器學習建模能力。大型金融機構數據科學團隊人才完善,對機器學習算法的探索和應用更前沿,如將機器學習模型應用在精準營銷、智能風控、產品研發(fā)、客戶體驗管理等多個場景中。但更多的傳統(tǒng)企業(yè)面臨IT人才缺失、尚未開始智能化應用或處于局部試驗的初期階段。傳統(tǒng)企業(yè)對數據科學與機器學習平臺的需求主要體現在以下五個方面:圖5:傳統(tǒng)企業(yè)對數據科學與機器學習平臺的需求
1)降低機器學習建模門檻,使非專業(yè)建模人員也能掌握機器學習建模技術,賦能業(yè)務。傳統(tǒng)機器學習建模技術門檻高,需要組建專門的數據科學團隊,包括數據工程師、數據科學家、開發(fā)工程師等,人力成本高昂。傳統(tǒng)企業(yè)希望能降低機器學習建模門檻,如平臺能實現數據自動處理、自動特征工程、圖形化建模或自動建模等功能,使非專業(yè)的業(yè)務人員也能快速開展建模工作,廣泛賦能業(yè)務,實現普惠AI。2)提供定制化算法、模型部署和運營服務,快速創(chuàng)造業(yè)務價值。傳統(tǒng)行業(yè)多具備行業(yè)特性,行業(yè)垂直場景下的模型開發(fā)耗時耗力,而且傳統(tǒng)企業(yè)對AI智能應用的探索尚處于初期,更傾向“小步快跑”,因此購買定制化算法能節(jié)約人力、實現快速產出以及驗證AI智能應用效果。企業(yè)需要廠商提供定制化算法服務、模型在硬件平臺和操作系統(tǒng)平臺的部署服務以及模型運營服務。3)縮短建模周期,提高業(yè)務敏捷響應度。以金融行業(yè)為例,金融企業(yè)的產品、服務、風控模型均需隨著客戶行為改變而持續(xù)迭代更新。但傳統(tǒng)的機器學習建模周期長達數月,無法敏捷響應業(yè)務需求。企業(yè)需要數據科學與機器學習平臺內置豐富的行業(yè)算法、模型模板、案例等,供建模人員直接調用,加速模型訓練;或是提供一鍵部署功能,實現模型在生產環(huán)境的快速部署。4)提供咨詢服務,提升模型質量。對于具備一定機器學習建模能力的金融機構,需要廠商提供建模咨詢支持,協(xié)助企業(yè)完成數據準備、模型訓練、模型部署等環(huán)節(jié),提升模型質量。5)支持國產化適配。以金融、政府、電信為代表的行業(yè),其底層軟硬件基礎設施已經基本實現國產化,廠商需支持平臺對國產軟硬件的兼容、適配。對于中小企業(yè)或是剛開始試點智能應用的企業(yè),相較于數據科學與機器學習平臺需要的組織、人才、流程上的變革與支持,采購適用于特定場景的AI智能應用是性價比更高、更迅捷的解決方案。人工智能軟件與服務商如算法服務商、ISV即面向此類需求,提供模型和智能應用服務。以算法服務商為例,盡管具備專業(yè)的數據科學團隊,但中小型企業(yè)的算法需求多樣且個性化,如雖然都是AI視覺算法,智慧城市、智慧工業(yè)下的應用場景如安全帽識別、產品瑕疵識別的模型卻截然不同,需要基于業(yè)務數據集、業(yè)務思路分別進行訓練。這使得算法服務商常常面臨嚴格的算法交付周期和算法精度要求。具體而言,人工智能軟件與服務提供商對數據科學與機器學習平臺的核心需求主要體現在以下四個方面:圖6:人工智能軟件與服務提供商對數據科學與機器學習平臺的需求
1)提高機器學習建模效率。軟件開發(fā)公司、算法提供商面臨嚴格的交付周期,但在傳統(tǒng)AI應用開發(fā)方式下,數據接入、數據處理、模型訓練等一系列建模流程都需要人工操作,建模周期長。其中數據接入環(huán)節(jié)因開源算法工具對不同類型的數據兼容性較差,需人工將原始數據轉化為開源算法所支持的數據類型;數據標注環(huán)節(jié)往往通過人工完成,并且部分領域的標注過程嚴重依賴專業(yè)知識,整體數據準備將耗費數周時間;模型部署中對模型的集成、監(jiān)控和更新需要大量的調研和實施工作,單個模型部署到上線需要3-5個月。企業(yè)需要完善的數據科學工具和建模功能,支持實現數據采集、數據準備、特征工程、模型訓練、模型部署等建模全流程,提高建模效率。2)滿足數據科學家復雜場景建模需求。平臺需支持數據科學家在復雜場景下進行靈活建模,如提供豐富的算法,預置主流機器學習框架,支持NoteBook建模方式,以及支持數據科學家在模型訓練中手動調參等。3)對模型開發(fā)資源和計算資源進行統(tǒng)一管理,支持計算資源彈性擴容,加速建模計算性能。傳統(tǒng)開發(fā)模式中重復建設嚴重,如各項目數據準備、特征工程、模型訓練等各自研發(fā),造成模型開發(fā)管理資源、計算資源浪費,難以適應大規(guī)模智能應用開發(fā)需求。另外,機器學習模型訓練過程中耗費大量計算資源,而一旦結束訓練,計算資源又處于閑置狀態(tài)。企業(yè)需要實現計算資源彈性擴容,滿足模型開發(fā)不同階段的計算需求。4)為多角色的數據科學團隊提供協(xié)作平臺。機器學習建模過程需要數據工程師、數據科學家、數據分析師等多角色共同協(xié)作完成,存在反復溝通、協(xié)作流程不明確等問題,帶來重復性工作。為滿足金融、消費品與零售、制造與能源、政府與公共服務等行業(yè)企業(yè),以及人工智能軟件與服務提供商等甲方客戶的核心需求,廠商需具備以下能力:1. 廠商應具備完善的機器學習模型開發(fā)功能,提供包括數據采集、數據準備、特征工程、模型訓練、模型部署等功能在內的一站式端到端數據科學與機器學習平臺。1)數據采集方面,平臺應具備整合多源異構數據的能力,支持實時接入結構化數據和非結構化數據(如表格、圖片、時間序列數據、語音和文本等),并具備基本的ETL能力、數據實時更新和同步能力。2)數據準備方面,平臺應提供豐富的數據清洗、數據探索工具。其中數據清洗環(huán)節(jié),應能支持進行數據融合、數據缺失處理、數據分類、數據標注、數據異常處理、數據平滑以及整合非結構化數據和結構化數據等數據清洗工作,減少人工干預。數據探索環(huán)節(jié),廠商需具備單變量和多變量統(tǒng)計、聚類分析、地理定位圖、相似度度量等分析能力。3)模型訓練環(huán)節(jié),針對非專業(yè)建模人員,平臺應提供簡便易用的建模工具,降低機器學習建模門檻。如平臺可通過建模全流程可視化降低用戶使用門檻,尤其在模型構建環(huán)節(jié),應支持以拖拉拽的方式完成建模。針對專業(yè)建模人員,平臺應具備較高的靈活性和開放性,提供主流開源算法和建模工具。如為專業(yè)的數據科學家提供自由靈活的NoteBook建模方式,并預置主流機器學習框架R、TensorFlow、Pytorch、Spark等,以及豐富的機器學習算法。4)模型部署環(huán)節(jié),平臺應支持模型一鍵部署,使建模人員可快速將模型從開發(fā)環(huán)境部署到生產環(huán)境中,并提供API接口供業(yè)務人員調用。此外,平臺還應提供模型版本管理和模型監(jiān)控功能,實時監(jiān)測模型性能,保證模型質量。5)資源管理方面,平臺需能對CPU、GPU資源進行管理和整合,以容器化方式對算力虛擬化,實現彈性擴容、性能加速等功能,且不同部門和項目之間可共享集群資源。6)平臺應具備AutoML能力,包括提供數據自動清洗、智能標注、自動特征工程和自動模型訓練等功能,提高建模效率。其中特征工程環(huán)節(jié),數據科學與機器學習平臺應能實現自動化特征構建、特征選擇、特征降維和特征編碼;模型訓練環(huán)節(jié),平臺應支持自動化模型選擇、自動化調參、自動化超參數搜索、模型自動驗證等,減少模型訓練時間成本和人力成本。7)此外,平臺還應支持多角色的數據科學團隊協(xié)作,協(xié)同數據工程師、數據科學家、業(yè)務人員等不同角色在建模工作流程中的模型注解、討論、答疑、評論等,使建模過程可追溯、模型可復用,減少重復性工作。2. 廠商需具備垂直行業(yè)Know-how能力,為企業(yè)提供咨詢和實施部署服務。廠商的專業(yè)服務能力體現在三個方面:一方面,基于豐富的垂直行業(yè)知識和經驗積累,廠商能為用戶提供行業(yè)場景相關的算法、模型模板,或是將行業(yè)經驗與模型算法相結合,形成諸如精準營銷、智能推薦、反欺詐、設備預警等智能業(yè)務模型,供用戶直接調用;另一方面,廠商能提供建模咨詢服務,通過數據科學專家團隊規(guī)劃有效的模型應用到特定業(yè)務的運營方案,協(xié)助用戶完成數據準備、模型訓練、模型部署、模型運營等工作,以及將企業(yè)既有的數據集經驗、特征工程經驗、模型經驗等提煉形成數字資產,內嵌到平臺中。此外,廠商應具備較強的實施部署能力,包括提供定制化模型算法在硬件平臺和操作系統(tǒng)平臺的部署服務、以及數據科學與機器學習平臺的部署服務。3. 廠商需支持數據科學與機器學習平臺與國產化軟硬件生態(tài)體系適配。如在服務器方面,應支持華為、曙光、浪潮等國產服務器品牌,在操作系統(tǒng)方面,支持中標麒麟、銀河麒麟的適配認證;在國產CPU方面,支持與飛騰、鯤鵬、海光、龍芯等國產廠商適配。2.2022Q1至2022Q4該市場付費客戶數量≥10個;3.2021Q1至2022Q4該市場合同收入≥1000萬元。
力維智聯
深圳力維智聯技術有限公司(簡稱“力維智聯”),前身為中興通訊的子公司“中興力維”,是一家專注于泛在數據監(jiān)測預警和大數據人工智能技術的科技公司。公司擁有170+授權發(fā)明專利,承擔國家“科技創(chuàng)新2030—新一代人工智能”重大項目和“物聯網與智慧城市關鍵技術及示范”重點專項的研發(fā)任務,是國內通用人工智能與機器學習平臺DSML軟件產品的核心供應商。Sentosa數據科學與機器學習平臺(簡稱“ Sentosa_DSML”)是力維智聯自主研發(fā)的一站式通用人工智能開發(fā)部署應用平臺,通過低代碼方式幫助客戶實現AI算法模型的開發(fā)、評估與部署,且具備完善的數據資產化管理模式、支持開箱即用簡捷部署。Sentosa_DSML 以 Sentosa Data Cube 數據魔方平臺為主體,集成了 Sentosa ML 機器學習平臺與Sentosa DL 深度學習平臺等組件,支持組合定制、靈活搭配。Sentosa_DSML已應用在政府、出版、電信、科研院所、高校、能源等多個行業(yè),通用性較強。
力維智聯 Sentosa_DSML 在降低用戶使用門檻、縮短模型開發(fā)周期、平臺實用性以及運維服務等方面具有明顯優(yōu)勢。其中,在易用性方面,力維智聯已經將大模型能力融入平臺中。此外,平臺可適配國產硬件,滿足信創(chuàng)需求。提供端到端一站式低代碼人工智能開發(fā)部署平臺,降低用戶使用門檻。為適應非專業(yè)建模人員使用,Sentosa_DSML 可全流程零代碼實現數據準備、模型開發(fā)、評估與部署。平臺部署近300個標準算子,包括數據讀入算子、數據處理算子、數據可視化算子、特征工程算子、機器學習算子、深度學習算子、模型評估算子等,支持用戶通過拖拉拽的形式自定義算子流,之后算子流可直接發(fā)布為服務進行部署。除零代碼可視化模型開發(fā)外,Sentosa_DSML 還支持自動化模型開發(fā),支持自動化數據準備、自動化進行特征工程、自動選擇模型、自動調參等模型開發(fā)全流程。此外,針對專業(yè)數據科學家,平臺通過提供數據視圖和模型庫訪問插件的形式支持低代碼Notebook開發(fā),提升模型開發(fā)效率。
具備高效的項目執(zhí)行效率,顯著縮短開發(fā)周期。Sentosa_DSML 高效的執(zhí)行效率體現在模型開發(fā)、團隊協(xié)作、資源管理、數據資產管理等多個方面。
在模型開發(fā)的編譯環(huán)節(jié),平臺對算子流編譯統(tǒng)一進行后臺優(yōu)化,包括優(yōu)化編譯器設計框架、代碼結構以及內存,提高編譯效率。
在團隊協(xié)作方面,基于力維智聯完全的自主研發(fā),平臺定義了一套接口規(guī)范,保證建模各環(huán)節(jié)之間的銜接流暢,如清洗好的數據可直接拖入建模平臺中,數據讀入算子、統(tǒng)計分析算子等進一步處理分析。規(guī)范的接口可使數據工程師、數據科學家、軟件工程師等多角色無縫協(xié)作,減輕代碼開發(fā)工作量的同時也讓團隊更專注于模型精度的優(yōu)化與領域知識的落地應用。
數據資產管理中,支持算子流、Notebook、模型、服務、工作流和應用等全流程數據資產的版本管理,實現數據資產的沉淀和共享復用,提高模型開發(fā)團隊工作效率。并且,模型的版本管理中支持一鍵切換,更輕便靈活,減少繁瑣的更新部署工作。
在資源管理方面,平臺以容器化的方式對計算資源包括CPU、GPU、內存和存儲等進行統(tǒng)一納管、分配和動態(tài)擴容,尤其支持對不同項目資源進行隔離,避免因資源錯配或搶占導致任務效率低及中斷的現象。
平臺操作界面互動友好,實用性較強。力維智聯秉持“用戶友好”的理念,對用戶操作細節(jié)進行改進。如Sentosa_DSML 支持一鍵部署,開箱即用,且具有良好的跨平臺特性,可在私有云和公有云上部署。又如在模型開發(fā)中,用戶對Notebook類型任務節(jié)點的條件參數構建表達式時,平臺可自動提示數據集列名、自動校驗表達式正確與否。如在AI調度中心,可對算子流、Notebook、腳本等調度單元進行定時調度、周期調度、消息觸發(fā)調度等,作業(yè)執(zhí)行方式更靈活。
與此同時,力維智聯已將大模型能力融入機器學習平臺中,提高平臺的可用性,例如在深度學習數據預處理中,用戶可通過預訓練大模型提供的AI自動標注功能,輔助完成數據標注工作。另外,在平臺Chat with Data 大模型功能模塊,用戶可通過自然語言輸入,實現對數據的預處理。
此外,Sentosa_DSML可滿足金融、政府、電信等多領域的信創(chuàng)需求。力維智聯對Sentosa_DSML有完全自主知識產權,且平臺在底層硬件上全面適配Intel、鯤鵬、飛騰CPU處理器和Windows、Linux、麒麟等操作系統(tǒng)。
實力雄厚,可為用戶提供持久運維服務。力維智聯前身為中興通訊子公司“中興力維”,公司已申請并積累700余項發(fā)明專利與軟件著作權,全業(yè)務覆蓋全球70+國家和地區(qū),可為用戶提供算法更新、算法開發(fā)、人員培訓以及后續(xù)運維升級等服務支持。
上海世紀出版集團、中海油惠州石化、南網科研院、航天科技、國家城安院