
澳汰爾工程軟件(上海)有限公司

已認(rèn)證
澳汰爾工程軟件(上海)有限公司
已認(rèn)證
導(dǎo)讀
隨著數(shù)字化轉(zhuǎn)型在制造企業(yè)中的推廣力度不斷加大,,越來(lái)越多的制造企業(yè)逐漸認(rèn)識(shí)到數(shù)據(jù)在企業(yè)中所發(fā)揮的作用,并開(kāi)始嘗試?yán)脭?shù)據(jù)科學(xué)來(lái)幫助企業(yè)降低成本、提高效率,。最近幾年的推廣過(guò)程中,,我們有一個(gè)非常顯著的感受,,過(guò)去當(dāng)我們向客戶介紹 AI 時(shí),,客戶通常會(huì)表示認(rèn)可其價(jià)值,,但也提到由于各種問(wèn)題,,缺乏數(shù)據(jù),,或沒(méi)有找到合適的應(yīng)用場(chǎng)景。然而,,在最近兩年間,,當(dāng)我們向客戶介紹 AI 時(shí),大部分客戶的反應(yīng)轉(zhuǎn)變?yōu)榉e極探尋企業(yè)內(nèi)部是否有適合的場(chǎng)景可以應(yīng)用,,并提出是否可以通過(guò) POC 來(lái)評(píng)估效果,。此外,越來(lái)越多的客戶主動(dòng)聯(lián)系我們,,詢問(wèn)公司是否有相關(guān)的 AI 產(chǎn)品,,并表達(dá)了希望通過(guò)這些產(chǎn)品開(kāi)展數(shù)字化轉(zhuǎn)型項(xiàng)目的意愿。這反映了當(dāng)前 AI 在制造企業(yè)中應(yīng)用的趨勢(shì),。
今天的介紹會(huì)圍繞下面幾點(diǎn)展開(kāi):
1. 數(shù)據(jù)在制造業(yè)中的場(chǎng)景和挑戰(zhàn)
2. AI 案例分享
3. LLM 在企業(yè)應(yīng)用的探索
分享嘉賓|趙帥 Altair澳汰爾 數(shù)據(jù)分析高級(jí)應(yīng)用工程師
編輯整理|馬同學(xué)
內(nèi)容校對(duì)|李瑤
出品社區(qū)|DataFun
01
數(shù)據(jù)在制造業(yè)中的場(chǎng)景和挑戰(zhàn)
數(shù)據(jù)在制造業(yè)中的應(yīng)用場(chǎng)景眾多,,從產(chǎn)品設(shè)計(jì)到生產(chǎn)制造、設(shè)備維護(hù),,以及產(chǎn)品的售前,、售后中都有相關(guān)應(yīng)用場(chǎng)景。下圖中列出了八類典型場(chǎng)景。例如,,在制造企業(yè)中,,各類設(shè)備普遍存在,如何實(shí)施預(yù)測(cè)性維護(hù)以減少停機(jī)時(shí)間成為關(guān)鍵問(wèn)題之一,。在產(chǎn)品測(cè)試方面,,可以利用機(jī)器學(xué)習(xí)模型部分替代實(shí)驗(yàn),從而節(jié)省測(cè)試時(shí)間和成本,。此外,,還有對(duì)產(chǎn)品質(zhì)量問(wèn)題的根因分析,以及傳感器數(shù)據(jù)異常檢測(cè)等場(chǎng)景,。這里不再一一詳述每個(gè)場(chǎng)景的具體內(nèi)容,。
數(shù)據(jù)在制造業(yè)的應(yīng)用所面臨的挑戰(zhàn)相較于消費(fèi)互聯(lián)網(wǎng)或金融行業(yè)更為嚴(yán)峻。
首先,,制造業(yè)的數(shù)據(jù)具有高度的多樣性和異構(gòu)性,。與互聯(lián)網(wǎng)企業(yè)通過(guò)簡(jiǎn)單添加幾行代碼設(shè)置一些埋點(diǎn)即可輕松獲取數(shù)據(jù)不同,制造業(yè)中的每條生產(chǎn)線設(shè)備各異,,供應(yīng)商不同,,數(shù)據(jù)接口也不統(tǒng)一,這使得數(shù)據(jù)收集成為一項(xiàng)艱巨的任務(wù),。當(dāng)然目前大多數(shù)制造企業(yè)已經(jīng)建立了數(shù)據(jù)中臺(tái)或數(shù)據(jù)倉(cāng)庫(kù),,解決了大部分?jǐn)?shù)據(jù)采集的問(wèn)題。
其次,,制造業(yè)從業(yè)人員大多為傳統(tǒng)學(xué)科工程師,,缺乏數(shù)據(jù)專業(yè)背景。雖然他們是行業(yè)專家,,對(duì)業(yè)務(wù)問(wèn)題非常熟悉,,但在將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)問(wèn)題時(shí),中間還是存在一定的斷層,。
第三,,數(shù)據(jù)安全性是另一大挑戰(zhàn)。制造企業(yè)需要挖掘的數(shù)據(jù)通常涉及企業(yè)的核心機(jī)密,,如配方和生產(chǎn)工藝等敏感信息,,因此他們往往不愿意將這些數(shù)據(jù)提供給第三方公司進(jìn)行分析。
最后,,制造業(yè)場(chǎng)景難以復(fù)制,。例如,在一家企業(yè)成功實(shí)施節(jié)能減排項(xiàng)目后,,當(dāng)嘗試在另一家企業(yè)推廣時(shí),,由于設(shè)備差異等因素,,之前建立的模型和數(shù)據(jù)分析結(jié)果可能無(wú)法直接復(fù)用,需要從頭開(kāi)始,。這種場(chǎng)景的高度定制化特性增加了項(xiàng)目的復(fù)雜性和成本,。
因此在制造企業(yè)內(nèi)部推進(jìn)數(shù)字化轉(zhuǎn)型項(xiàng)目時(shí),乙方公司需要提供一個(gè)完整的數(shù)據(jù)平臺(tái),,來(lái)解決上述挑戰(zhàn),。
首先是集成多源異構(gòu)的數(shù)據(jù),這一步驟大部分企業(yè)的數(shù)據(jù)中臺(tái)已具備相應(yīng)能力,。
其次,,平臺(tái)需提供制造企業(yè)所欠缺的數(shù)據(jù)科學(xué)能力,通過(guò)簡(jiǎn)單易用的軟件工具快速培訓(xùn)企業(yè)內(nèi)部的業(yè)務(wù)專家,,使他們能夠自行操作,,而無(wú)需將數(shù)據(jù)外發(fā)給第三方公司進(jìn)行分析。這是針對(duì)前面提到的第二和第三項(xiàng)挑戰(zhàn),。
第四,,針對(duì)制造企業(yè)內(nèi)部應(yīng)用場(chǎng)景繁多的情況,只有當(dāng)企業(yè)自身的專家掌握了數(shù)據(jù)科學(xué)的能力,,并借助平臺(tái)的支持,,才能迅速實(shí)現(xiàn)數(shù)據(jù)應(yīng)用的構(gòu)建。
下圖展示的是 Altair RapidMiner 企業(yè)級(jí)人工智能平臺(tái)的架構(gòu)圖,。該平臺(tái)分為兩層:底層是數(shù)據(jù)編織平臺(tái),,支持用戶集成來(lái)自各種來(lái)源的數(shù)據(jù),并配備了一個(gè)高性能自研圖數(shù)據(jù)庫(kù),,用于大數(shù)據(jù)的存儲(chǔ)和查詢,。在數(shù)據(jù)編織平臺(tái)之上,是全可視化操作的機(jī)器學(xué)習(xí)平臺(tái),,方便用戶進(jìn)行建模操作,。
以下是數(shù)據(jù)編制的流程圖,,該流程分為四個(gè)步驟:數(shù)據(jù)加載,、模型構(gòu)建、模型融合和最終的數(shù)據(jù)訪問(wèn),。我們能夠迅速將企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為知識(shí)圖譜,,并存儲(chǔ)于圖數(shù)據(jù)庫(kù)中。接下來(lái),,企業(yè)內(nèi)部大模型能夠非常方便的利用知識(shí)圖譜中的數(shù)據(jù)作為外掛數(shù)據(jù),,實(shí)現(xiàn)大模型對(duì)企業(yè)內(nèi)部數(shù)據(jù)的有效利用和快速訪問(wèn),為企業(yè)提供強(qiáng)有力的支持,。
我們的機(jī)器學(xué)習(xí)平臺(tái)在 2024 年 6 月的 Gartner 數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)魔力象限中,,位于領(lǐng)導(dǎo)者象限。這一成績(jī)體現(xiàn)了我們?cè)谠擃I(lǐng)域的卓越表現(xiàn)和領(lǐng)先地位。
02
AI 案例分享
接下來(lái),,將分享過(guò)去一兩年中為制造業(yè)企業(yè)用戶落地的一些 AI 應(yīng)用案例,。
1. 行人頭碰損傷預(yù)測(cè)
第一個(gè)案例是行人頭碰損傷預(yù)測(cè),這一應(yīng)用與模擬仿真業(yè)務(wù)緊密結(jié)合,。在汽車上市前,,需要進(jìn)行多種碰撞測(cè)試,包括行人頭部,、大腿和小腿的碰撞實(shí)驗(yàn),。我們通過(guò)AI技術(shù),能夠更精確地預(yù)測(cè)這些碰撞對(duì)行人的潛在損傷,。以下是三張圖示,,分別展示了頭部碰撞、大腿碰撞和小腿碰撞的模擬情景,。這些圖示有助于進(jìn)一步說(shuō)明該應(yīng)用的具體實(shí)施方式,。
其中,頭部碰撞是這三個(gè)場(chǎng)景中最為關(guān)鍵的實(shí)驗(yàn),。右側(cè)展示了一張汽車前引擎蓋的圖示,。首先,我們將前引擎蓋劃分為多個(gè)區(qū)域,,然后測(cè)試當(dāng)行人的頭部碰撞到這些區(qū)域時(shí)所受到的傷害值,。在右下角有一張?jiān)u分表,如果某區(qū)域的傷害值超過(guò) 1,700,,則該區(qū)域會(huì)被標(biāo)記為紅色,,并且評(píng)分為 0。
完成對(duì)所有區(qū)域的碰撞測(cè)試后,,我們會(huì)對(duì)整個(gè)引擎蓋進(jìn)行綜合評(píng)價(jià),,以確定車輛是否符合行人頭部碰撞的標(biāo)準(zhǔn)。如果不符合標(biāo)準(zhǔn),,則需要重新設(shè)計(jì)引擎蓋或調(diào)整發(fā)動(dòng)機(jī)艙內(nèi)部布局,,然后再次進(jìn)行實(shí)驗(yàn),直至滿足要求為止,,確保車輛可以正常上市銷售,。這一過(guò)程確保了汽車在安全性方面的高標(biāo)準(zhǔn)。
在傳統(tǒng)方法中,,首先使用模擬仿真軟件生成一個(gè)模擬人頭部的橢圓形物體,。對(duì)于兒童,該物體的重量設(shè)置為 3.5 公斤,;對(duì)于成人,,則設(shè)置為 4.5 公斤,。該物體將以 35 公里每小時(shí)的速度撞擊汽車前引擎蓋。右側(cè)展示的是在模擬仿真軟件中進(jìn)行仿真的動(dòng)畫示例,,顯示頭部不斷碰撞到不同區(qū)域,,并計(jì)算所受到的傷害值。這一過(guò)程通常需要兩到四周才能完成整個(gè)工作流程,。
部分客戶希望利用其歷史上的車型模擬仿真數(shù)據(jù)構(gòu)建機(jī)器學(xué)習(xí)模型,,以便在新車輛設(shè)計(jì)時(shí)能夠快速預(yù)測(cè)頭部損傷標(biāo)準(zhǔn)(HIC)值,而無(wú)需等待兩到四周的模擬仿真結(jié)果,。通過(guò)機(jī)器學(xué)習(xí)模型,,可以在大約三到五秒內(nèi)獲得不同區(qū)域的 HIC 值,從而快速迭代設(shè)計(jì),。當(dāng)然,,前提是預(yù)測(cè)出的 HIC 值與實(shí)際情況之間的誤差在可接受范圍內(nèi)。
我們使用的模型基于以下參數(shù)構(gòu)建:例如引擎蓋的長(zhǎng)度,、寬度,、角度、厚度及其材料屬性(如屈服強(qiáng)度和延伸率),。關(guān)鍵參數(shù)包括引擎蓋外層和內(nèi)層之間的間隙,,以及引擎蓋內(nèi)部的發(fā)動(dòng)機(jī)、電池或其他剛性零件的位置,。如果引擎蓋與這些剛性點(diǎn)之間的間隙較小,,則撞擊該區(qū)域時(shí)的傷害值會(huì)顯著增加,這也是一個(gè)重要的考量因素,。
提取上述參數(shù)作為模型輸入變量,,并將歷史上模擬仿真計(jì)算出的各區(qū)域 HIC 值作為輸出變量,以此構(gòu)建我們的機(jī)器學(xué)習(xí)模型,。這樣可以有效提升設(shè)計(jì)效率和安全性評(píng)估的準(zhǔn)確性,。
接下來(lái)將展示如何在 RapidMiner 平臺(tái)中,利用已提取的仿真數(shù)據(jù),,通過(guò)拖拽方式構(gòu)建機(jī)器學(xué)習(xí)流程,。
首先進(jìn)行數(shù)據(jù)質(zhì)量檢驗(yàn),包括多重共線性檢驗(yàn)和對(duì)齊視圖等步驟,。然后選擇我們要預(yù)測(cè)的目標(biāo)變量,,即 HIC 值,,并按照 7:3 的比例拆分訓(xùn)練集和測(cè)試集,。在此基礎(chǔ)上,我們應(yīng)用 XGBoost 算法來(lái)擬合數(shù)據(jù),,并生成模型評(píng)價(jià)指標(biāo),。
使用新數(shù)據(jù)進(jìn)行 HIC 值預(yù)測(cè)時(shí),,同時(shí)進(jìn)行自變量?jī)?yōu)化。運(yùn)行流程后,,通過(guò)模型評(píng)價(jià)指標(biāo)可以觀察到均方根誤差(RMSE)和相對(duì)誤差(RE)表現(xiàn)良好,。此外,我們還檢查了實(shí)際值與預(yù)測(cè)值的擬合曲線,,發(fā)現(xiàn)擬合度非常高,。這使得在后續(xù)的新車碰撞測(cè)試中,可以直接利用該模型快速預(yù)測(cè) HIC 值,。
可以看到,,我們構(gòu)建的模型預(yù)測(cè)出的 HIC 值相對(duì)誤差較小,通常保持在 10% 以下,。這意味著用戶可以在一定程度上用我們預(yù)測(cè)的 HIC 值替代傳統(tǒng)的模擬仿真結(jié)果,,從而迅速獲得設(shè)計(jì)階段的 HIC 值預(yù)測(cè)結(jié)果。
2. 包裝的紙箱抗壓預(yù)測(cè)
第二個(gè)案例涉及為包裝行業(yè)構(gòu)建紙箱抗壓性能的預(yù)測(cè)模型,。如今,,消費(fèi)者大多通過(guò)網(wǎng)絡(luò)購(gòu)買各種商品,通常使用瓦楞紙箱進(jìn)行包裝,。對(duì)于這些瓦楞紙箱而言,,關(guān)鍵要素之一是其能夠承受多大的壓力,尤其是在堆疊過(guò)程中,,確保內(nèi)部物品不受損壞,。
傳統(tǒng)流程為,客戶提出具體需求,,例如要求瓦楞紙箱尺寸為長(zhǎng) 200 毫米,、高 150 毫米、寬 300 毫米,,并要求其抗壓強(qiáng)度達(dá)到 1500 牛頓,。廠商根據(jù)以往經(jīng)驗(yàn)設(shè)計(jì)紙箱后,需進(jìn)行實(shí)際測(cè)試,。然而,,這種測(cè)試不僅耗時(shí),而且如果未能滿足客戶需求,,則需要反復(fù)修改設(shè)計(jì)并重新測(cè)試,。
鑒于客戶擁有大量歷史臺(tái)架測(cè)試數(shù)據(jù),我們利用這些數(shù)據(jù)構(gòu)建了一個(gè)預(yù)測(cè)模型,。下圖中展示了一張包含歷史數(shù)據(jù)的表格,,其中列出了紙箱的長(zhǎng)、寬,、高以及瓦楞層數(shù),、波形類型,、厚度、克重等參數(shù),,這些參數(shù)對(duì)瓦楞紙箱的抗壓性能有顯著影響,。基于這些輸入變量和歷史抗壓性數(shù)據(jù),,我們構(gòu)建了相應(yīng)的模型,。
例如,當(dāng)客戶提出新的需求,,如尺寸為長(zhǎng) 350 毫米,、寬 150 毫米、高 300 毫米,,且抗壓性能要求達(dá)到 1600 牛頓時(shí),,我們可以利用該模型快速預(yù)測(cè)所需的瓦楞層數(shù)、波形類型及其他相關(guān)參數(shù),。如果預(yù)測(cè)結(jié)果未達(dá)到 1600 牛頓的要求,,我們可以通過(guò)調(diào)整參數(shù)來(lái)優(yōu)化設(shè)計(jì)。之后,,再通過(guò)實(shí)驗(yàn)驗(yàn)證模型的預(yù)測(cè)結(jié)果,,從而節(jié)省客戶的臺(tái)架測(cè)試時(shí)間和成本。
這一案例展示了如何利用歷史數(shù)據(jù)和機(jī)器學(xué)習(xí)模型,,在設(shè)計(jì)階段快速預(yù)測(cè)和優(yōu)化瓦楞紙箱的抗壓性能,,減少實(shí)際測(cè)試的需求,提高設(shè)計(jì)效率,。
3. 節(jié)能減排
第三個(gè)案例是幫助某制造企業(yè)實(shí)現(xiàn)節(jié)能減排,。企業(yè)面臨高昂的電力消耗,希望通過(guò)應(yīng)用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法來(lái)制定合理的節(jié)能措施,。
客戶需求為根據(jù)生產(chǎn)量調(diào)整冷水機(jī)的運(yùn)行策略,,當(dāng)生產(chǎn)量大時(shí),多開(kāi),,反之則少開(kāi),。首先要根據(jù)排產(chǎn)量計(jì)算出所需的制冷量,再根據(jù)冷水機(jī)的能耗曲線,,制定出不同冷水機(jī)的運(yùn)行策略,。
用戶提供的冷水機(jī)數(shù)據(jù)包括:進(jìn)出水溫度、能耗,、天氣溫度,、產(chǎn)能,以及冷水機(jī)的能效曲線等?;谶@些數(shù)據(jù),,構(gòu)建了預(yù)測(cè)模型,,根據(jù)預(yù)測(cè)結(jié)果即可制定冷水機(jī)的運(yùn)行策略,。這樣在不增加硬件和系統(tǒng)改造的情況下,每年可以幫助用戶節(jié)省 10% 的電耗,。
4. 客訴風(fēng)險(xiǎn)預(yù)測(cè)
第四個(gè)案例是幫助客戶減少客訴,。客戶業(yè)務(wù)為兒童牙齒矯正,,部分兒童在佩戴矯正器后會(huì)經(jīng)歷疼痛和不適,,繼而進(jìn)行投訴??蛻粝M?AI 技術(shù),,基于診斷階段的 CT 檢測(cè)報(bào)告數(shù)據(jù),預(yù)測(cè)可能出現(xiàn)的投訴風(fēng)險(xiǎn),,從而及時(shí)調(diào)整矯正器,,確保患者佩戴舒適,。
通過(guò)對(duì)歷史客訴部位與 CT 報(bào)告之間的關(guān)聯(lián)進(jìn)行建模,,利用 AI 預(yù)測(cè),使上頜舌側(cè)預(yù)測(cè)正確率達(dá)到了 87%,,同比客訴下降 60%,。
5. 質(zhì)檢檢測(cè)
下面介紹的案例是使用圖像識(shí)別技術(shù)幫助客戶檢測(cè)生產(chǎn)線上零件表面的缺陷,這一應(yīng)用廣泛存在于制造行業(yè)中,。我們的軟件提供了一套完整的圖片標(biāo)記處理和模型構(gòu)建流程,。
客戶可以對(duì)圖片數(shù)據(jù)進(jìn)行標(biāo)注,例如標(biāo)識(shí)出哪些區(qū)域存在針孔,、油污或劃痕等問(wèn)題,。基于這些標(biāo)注的圖片,,我們可以訓(xùn)練出相應(yīng)的圖像識(shí)別算法,。當(dāng)有新的零件進(jìn)入時(shí),該算法能夠快速識(shí)別圖片中的缺陷區(qū)域,,識(shí)別準(zhǔn)確率可達(dá) 99% 以上,。通過(guò)這種 AI 方式,客戶可以高效實(shí)現(xiàn)對(duì)其零件質(zhì)量的檢測(cè),。
03
LLM 在企業(yè)應(yīng)用的探索
下面介紹我們?cè)谄髽I(yè)內(nèi)部應(yīng)用大型模型所做的一些探索和解決方案,。
自 2022 年 11 月 OpenAI 發(fā)布了全球首個(gè)大型模型 ChatGPT 以來(lái),生成式 AI 已成為全球熱門話題,。大型模型究竟在哪些方面帶來(lái)了技術(shù)上的提升和能力的增強(qiáng)呢,?主要有以下三個(gè)方向:
大語(yǔ)言的理解和生成能力:在大型語(yǔ)言模型出現(xiàn)之前,,對(duì)話機(jī)器人對(duì)自然語(yǔ)言的理解并不完善?;?Transformer 架構(gòu)的大型模型在這方面取得了顯著進(jìn)展,,特別是在高效理解和生成復(fù)雜的自然對(duì)話語(yǔ)言上表現(xiàn)尤為突出。
處理和理解長(zhǎng)依賴距離的上下文信息:這意味著大型模型能夠更好地理解對(duì)話中更為復(fù)雜的概念和想法,。它可以捕捉到更長(zhǎng)距離的上下文依賴關(guān)系,,從而更準(zhǔn)確地理解用戶意圖。
多模態(tài)處理能力:除了文本數(shù)據(jù),,大型模型還具備處理語(yǔ)音和圖像的能力,,并能將不同模態(tài)的信息進(jìn)行整合。這使得它們不僅限于文本處理,,還能跨多種數(shù)據(jù)類型提供綜合分析和支持,。
接下來(lái)介紹企業(yè)應(yīng)用大模型的一些常見(jiàn)方法。
第一個(gè)方法是模型的微調(diào),,即對(duì)大型模型的參數(shù)進(jìn)行重新訓(xùn)練,。這可以分為全參數(shù)微調(diào)和高效微調(diào)兩種方式。高效微調(diào)有許多方法,,例如 LoRA(Low-Rank Adaptation)方法,,可以通過(guò)在模型的關(guān)鍵層之間添加旁路,減少所需的訓(xùn)練參數(shù)總量,。然而,,使用企業(yè)內(nèi)部數(shù)據(jù)對(duì)大型模型進(jìn)行微調(diào)仍面臨諸多挑戰(zhàn):
計(jì)算資源消耗:即使是小規(guī)模的微調(diào),也需要大量的計(jì)算資源和時(shí)間,。
回答準(zhǔn)確性問(wèn)題:即使經(jīng)過(guò)微調(diào),,大型模型在回答問(wèn)題時(shí)仍可能出現(xiàn)錯(cuò)誤,或者看似正確的回答實(shí)際上并不符合企業(yè)內(nèi)部數(shù)據(jù)的真實(shí)情況,。這種現(xiàn)象被稱為“幻覺(jué)效應(yīng)”,。
數(shù)據(jù)滯后性:企業(yè)內(nèi)部的數(shù)據(jù)不斷更新,尤其是訂單數(shù)據(jù)等關(guān)鍵信息,。頻繁地使用新數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)并不現(xiàn)實(shí),。通常情況下,企業(yè)每月能夠?qū)δP瓦M(jìn)行一次微調(diào)已屬難得,,這意味著模型中的數(shù)據(jù)會(huì)存在一定的滯后性,。
技能要求高:一般制造企業(yè)不具備擁有模型微調(diào)技能的專業(yè)人員,因此這種方法并不適合大多數(shù)制造企業(yè),。
因此,,盡管模型微調(diào)能夠提升大型模型對(duì)企業(yè)特定數(shù)據(jù)的理解和生成能力,但由于計(jì)算資源需求大、回答準(zhǔn)確性問(wèn)題,、數(shù)據(jù)滯后性和技能要求高等因素,,這種方法在實(shí)際應(yīng)用中面臨諸多挑戰(zhàn),并不適合大多數(shù)制造企業(yè),。企業(yè)應(yīng)根據(jù)自身情況選擇更為合適的解決方案,。
第二種方法是檢索增強(qiáng)生成(RAG)方式,這是目前最常用的方法之一,。簡(jiǎn)單來(lái)說(shuō),,這種方法不需要大型模型直接擁有企業(yè)內(nèi)部的數(shù)據(jù),,而是通過(guò) RAG 方式將數(shù)據(jù)外掛于模型之外,。
具體流程如下:
數(shù)據(jù)預(yù)處理:首先,我們將文本數(shù)據(jù)進(jìn)行切片,,并將其向量化,,構(gòu)建索引后存儲(chǔ)在向量數(shù)據(jù)庫(kù)中,以便后續(xù)用于問(wèn)答檢索,。
用戶查詢處理:當(dāng)用戶輸入查詢或問(wèn)題時(shí),,大型模型會(huì)在向量數(shù)據(jù)庫(kù)中搜索與用戶查詢最相關(guān)的文檔片段。
結(jié)果匯總與整理:模型會(huì)返回最相關(guān)的前五個(gè)文檔片段,?;谶@些內(nèi)容,模型進(jìn)一步匯總和整理信息,,最終生成回答以響應(yīng)用戶的查詢,。
通過(guò)這種方式,大模型可以高效地利用外部數(shù)據(jù),,而無(wú)需直接存儲(chǔ)和處理企業(yè)內(nèi)部的具體數(shù)據(jù),。這不僅減少了對(duì)計(jì)算資源的需求,還提高了回答的準(zhǔn)確性和相關(guān)性,。
RAG(檢索增強(qiáng)生成)方法在處理文檔數(shù)據(jù)方面表現(xiàn)出色,,但對(duì)于結(jié)構(gòu)化表格數(shù)據(jù)的支持相對(duì)不足,尤其是對(duì)市面上大多數(shù)關(guān)系型數(shù)據(jù)庫(kù)的支持較為有限,。因此,,盡管 RAG 在文本處理上表現(xiàn)良好,但在處理結(jié)構(gòu)化數(shù)據(jù)時(shí)存在一定的局限性,。而結(jié)構(gòu)化數(shù)據(jù)往往是企業(yè)內(nèi)部最核心,、最有價(jià)值的數(shù)據(jù)。
為了應(yīng)對(duì)大模型在回答結(jié)構(gòu)化數(shù)據(jù)場(chǎng)景中的挑戰(zhàn),,目前有一種稱為“Text-to-SQL”的技術(shù),。該技術(shù)并不是新技術(shù),其主要功能是將用戶的自然語(yǔ)言問(wèn)題轉(zhuǎn)換為針對(duì)關(guān)系型數(shù)據(jù)庫(kù)的查詢語(yǔ)句(通常是 SQL)。通過(guò)這種方法,,從數(shù)據(jù)庫(kù)中查詢回來(lái)的數(shù)據(jù)通常是非常精確且無(wú)誤的,。前提是生成的 SQL 查詢必須有效,并能夠準(zhǔn)確獲取用戶所需的數(shù)據(jù),。當(dāng)數(shù)據(jù)查詢返回后,,大型模型可以基于這些數(shù)據(jù)進(jìn)行總結(jié)或歸納,從而精準(zhǔn)地回答用戶的問(wèn)題,,避免產(chǎn)生任何幻覺(jué)問(wèn)題,。
然而,Text-to-SQL 本身也存在一些問(wèn)題,。例如,,數(shù)據(jù)庫(kù)中的表和字段名稱可能不具備業(yè)務(wù)上的含義。比如,,一個(gè)字段在業(yè)務(wù)上被稱為“客戶”,,但在數(shù)據(jù)庫(kù)中存儲(chǔ)的 ID 可能是“dimension_customer”。因此,,在將自然語(yǔ)言轉(zhuǎn)換為 SQL 查詢時(shí),,仍需進(jìn)行語(yǔ)義到數(shù)據(jù)庫(kù)字段的轉(zhuǎn)換,這一轉(zhuǎn)換過(guò)程的準(zhǔn)確性直接影響到查詢結(jié)果是否符合用戶需求,。
如果能基于一個(gè)本身就包含數(shù)據(jù)業(yè)務(wù)語(yǔ)義的數(shù)據(jù)庫(kù)進(jìn)行查詢,,那么這一轉(zhuǎn)換步驟就可以省去,從而提高查詢的精確度,。為此,,我們使用了一種稱為“Text-to-Sparql”的方法。Sparql 是一種用于圖數(shù)據(jù)庫(kù)查詢的語(yǔ)言,。我們將企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)生成知識(shí)圖譜,,并存儲(chǔ)于圖數(shù)據(jù)庫(kù)中。這樣,,當(dāng)大型模型對(duì)關(guān)系型數(shù)據(jù)進(jìn)行查詢時(shí),,就不需要再進(jìn)行業(yè)務(wù)語(yǔ)義到字段查詢的轉(zhuǎn)換,因?yàn)閳D數(shù)據(jù)庫(kù)中的數(shù)據(jù)已經(jīng)包含了業(yè)務(wù)含義,。
我們基于大型模型結(jié)合圖數(shù)據(jù)庫(kù)或知識(shí)圖譜的檢索方式,,推出了自己的大模型應(yīng)用——Altair Copilot。以下是 Altair Copilot 在企業(yè)內(nèi)部應(yīng)用的框架圖示,。
我們的目標(biāo)是解決以下問(wèn)題:首先將企業(yè)內(nèi)部的數(shù)據(jù)轉(zhuǎn)換為知識(shí)圖譜,,然后使用大型模型對(duì)知識(shí)圖譜中的數(shù)據(jù)進(jìn)行查詢。這樣可以實(shí)現(xiàn)對(duì)企業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的有效查詢,。此外,,在某些場(chǎng)景中,,我們還可以查詢以往構(gòu)建的機(jī)器學(xué)習(xí)小模型,并調(diào)用這些模型以獲得對(duì)未來(lái)數(shù)據(jù)的預(yù)測(cè)結(jié)果,,例如銷量預(yù)測(cè)或其他相關(guān)模型的結(jié)果,。
通過(guò)這一架構(gòu),Altair Copilot 不僅能夠高效處理企業(yè)內(nèi)部的復(fù)雜數(shù)據(jù),,還能結(jié)合歷史模型的預(yù)測(cè)能力,,為企業(yè)提供更加精準(zhǔn)和有價(jià)值的洞察。
再回到大模型結(jié)合知識(shí)圖譜本身來(lái)說(shuō),,從技術(shù)層面上看,,大模型和知識(shí)圖譜是如何結(jié)合以回答用戶的自然語(yǔ)言問(wèn)題的呢?我們繪制了一個(gè)流程圖來(lái)展示這一過(guò)程,。
當(dāng)用戶提出一個(gè)問(wèn)題時(shí),,大模型首先會(huì)對(duì)問(wèn)題進(jìn)行自然語(yǔ)言處理,分析出問(wèn)題中的關(guān)鍵點(diǎn),,包括主體數(shù)據(jù)及其相互關(guān)系,。例如,,在某個(gè)問(wèn)題中可能涉及供應(yīng)商(supplier),、分發(fā)中心(distribution center)和國(guó)家(country)等主體,同時(shí)還可能包含一些附加條件,,如評(píng)分需高于 0.7,。
知識(shí)圖譜在回答這類問(wèn)題時(shí)的核心優(yōu)勢(shì)在于其使用自然語(yǔ)言描述數(shù)據(jù)實(shí)體及其關(guān)系的能力。參考下圖,,供應(yīng)商,、國(guó)家及其范圍等信息是以實(shí)體的形式存儲(chǔ)在圖數(shù)據(jù)庫(kù)中的。因此,,大模型能夠較為簡(jiǎn)單地將用戶的自然語(yǔ)言轉(zhuǎn)換為對(duì)知識(shí)圖譜的查詢,。
接下來(lái),大模型生成一個(gè) Sparql 查詢語(yǔ)句,,用于圖數(shù)據(jù)庫(kù)的檢索,。如果仔細(xì)觀察這個(gè)查詢語(yǔ)句,可以看到其中的供應(yīng)商,、國(guó)家及范圍等元素與用戶自然語(yǔ)言描述的內(nèi)容基本匹配,。這種方式顯著減少了大模型生成 Sparql 查詢語(yǔ)句的錯(cuò)誤率,使得查詢結(jié)果更加準(zhǔn)確可靠,。
一旦 Sparql 查詢完成,,返回的結(jié)果一定是精確無(wú)誤的數(shù)據(jù)。大模型基于這些查詢結(jié)果,,進(jìn)一步整理和處理上下文信息,,最終回答用戶的問(wèn)題,。通過(guò)這種知識(shí)圖譜外掛的方式,大模型能夠高效生成針對(duì)圖數(shù)據(jù)庫(kù)的精準(zhǔn)查詢,,并有效解決幻覺(jué)問(wèn)題,。
最后,我們使用 Altair Copilot 完成了一個(gè)結(jié)構(gòu)化數(shù)據(jù)查詢的案例,。在底層數(shù)據(jù)或知識(shí)圖譜數(shù)據(jù)中,包含了銷售數(shù)據(jù)(如銷量,、時(shí)間,、客戶等信息)和產(chǎn)品主數(shù)據(jù)(如產(chǎn)品的泵表數(shù)據(jù),,即產(chǎn)品由哪些零件組成)。此外,,還加入了物聯(lián)網(wǎng)傳感數(shù)據(jù),例如在一個(gè)水管演示案例中,,水管上的傳感器記錄了壓力和溫度等數(shù)據(jù)。
通過(guò)大模型或 AltairCopilot,,用戶可以對(duì)這些數(shù)據(jù)進(jìn)行查詢。以下是一個(gè)簡(jiǎn)短的演示:
首先,,選擇底層圖數(shù)據(jù)庫(kù)中的某個(gè)數(shù)據(jù)集,,這里選擇的是水管的數(shù)據(jù),。我們可以詢問(wèn)大模型底層圖數(shù)據(jù)庫(kù)包含哪些數(shù)據(jù)類型,,例如訂單,、水管泵表數(shù)據(jù)或傳感器數(shù)據(jù),。然后,,進(jìn)一步查詢特定水管的主數(shù)據(jù),。例如,,查詢編號(hào)為 TA001 的水管的相關(guān)主數(shù)據(jù),如長(zhǎng)度和彎管數(shù)量,。
接下來(lái),,可以繼續(xù)查詢?cè)撍艿谋帽頂?shù)據(jù),得知它由兩個(gè)零件組成,。還可以切換到銷售訂單數(shù)據(jù)的查詢,顯示銷售訂單的明細(xì)數(shù)據(jù),。如果返回的數(shù)據(jù)量過(guò)大,大模型會(huì)提示需要進(jìn)行匯總或選擇部分?jǐn)?shù)據(jù)展示,。我們可以按產(chǎn)品名稱匯總,,并僅返回前 30 條數(shù)據(jù),。
如果表格形式不夠直觀,可以直接要求大模型將數(shù)據(jù)可視化為柱狀圖,。如果發(fā)現(xiàn)圖表中缺少某些關(guān)鍵信息(如銷售數(shù)量),可以進(jìn)一步指示大模型將其添加到圖形上,。
對(duì)于物聯(lián)網(wǎng)數(shù)據(jù),,由于其通常包含大量記錄,建議先設(shè)定限制條件以減少返回的數(shù)據(jù)量,。例如,隨機(jī)選擇 10 個(gè)傳感器的水管 ID,。選定特定水管(如 TA0014)后,,可以進(jìn)一步查詢其傳感器的具體檢測(cè)數(shù)據(jù)(如壓力和溫度),,并帶上時(shí)間戳。
這些傳感器數(shù)據(jù)也可以轉(zhuǎn)換為折線圖進(jìn)行可視化展示,。
整個(gè)演示展示了基于圖數(shù)據(jù)庫(kù)或知識(shí)圖譜結(jié)合大模型,,如何通過(guò)對(duì)話方式實(shí)現(xiàn)對(duì)企業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)的查詢和可視化。這在很大程度上能夠替代現(xiàn)有的 BI 報(bào)表,,滿足客戶的實(shí)時(shí)BI需求或?qū)崟r(shí)數(shù)據(jù)可視化需求,。未來(lái),大部分 BI 報(bào)表可能會(huì)被這種對(duì)話式的數(shù)據(jù)查詢和可視化方式所取代,。
以上就是對(duì)企業(yè)大模型解決方案的介紹,,如果您對(duì) RapidMiner 產(chǎn)品感興趣,可以掃描二維碼,,申請(qǐng)?jiān)囉谩N覀儗⒂袑iT人員與您聯(lián)系,,為您提供相關(guān)的試用服務(wù)。以上就是本次分享的內(nèi)容,,謝謝大家。
相關(guān)產(chǎn)品
更多
型號(hào):Altair One仿真,、數(shù)據(jù)分析、計(jì)算資源的統(tǒng)一云平臺(tái)
面議型號(hào):Altair Simulation Cloud Suite數(shù)字化仿真管理平臺(tái)
面議型號(hào):Altair? lOT Studio人工智能及物聯(lián)網(wǎng)智能產(chǎn)品開(kāi)發(fā)
面議相關(guān)文章
更多
技術(shù)文章
2025-02-28技術(shù)文章
2025-02-26技術(shù)文章
2025-02-26技術(shù)文章
2025-02-26