構(gòu)建企業(yè) AI 的信任與信心基石
雖然推理成本和性能是企業(yè) AI 的關(guān)鍵因素,但它們并非唯一考量因素。企業(yè)還必須確保其 AI 模型能夠滿足嚴(yán)格的安全、隱私和監(jiān)管合規(guī)要求。穩(wěn)健 AI 戰(zhàn)略的核心在于開發(fā)和維護(hù)對(duì)所部署 AI 系統(tǒng)的信任和信心的能力。這意味著除了優(yōu)化成本和性能外,企業(yè)需要優(yōu)先考慮模型的完整性和安全性。確保 AI 系統(tǒng)具備充分的防護(hù)措施,符合數(shù)據(jù)保護(hù)法規(guī)并能保護(hù)敏感信息至關(guān)重要。
當(dāng)企業(yè)評(píng)估哪些基礎(chǔ)模型應(yīng)作為其 AI 實(shí)施的一部分時(shí),應(yīng)采用這種整體方法。例如,考慮最近發(fā)布的具有最新思維鏈推理能力的一些模型。一方面是 Qwen 2.5 7B 和 Llama 3.1 8B,這兩個(gè)模型由 DeepSeek 使用 DeepSeek R1 進(jìn)行蒸餾;另一方面是 IBM Granite 3.2。由于前兩個(gè)模型是由 DeepSeek 從其 R1 模型蒸餾而來,因此對(duì)這些模型在安全性方面的任何分析,都必須先從對(duì) DeepSeek R1 的評(píng)估開始。
DeepSeek 在發(fā)布其最新模型 DeepSeek R1 時(shí)震驚了世界,它證明了以傳統(tǒng)上與此類努力相關(guān)的成本的一小部分來訓(xùn)練高性能模型是可能的。這種成本效益延伸到其推理使用,使其成為希望利用 AI 的企業(yè)的經(jīng)濟(jì)吸引選擇。
然而,盡管在性能和成本效益方面取得了顯著進(jìn)步,DeepSeek R1 卻被發(fā)現(xiàn)存在關(guān)鍵漏洞。在思科進(jìn)行的一項(xiàng)研究中,DeepSeek R1 在研究期間 100% 的越獄攻擊嘗試中都表現(xiàn)出易受攻擊的特性。它在某些話題上也表現(xiàn)出強(qiáng)烈的中國偏見,比如對(duì)以往政治起義的內(nèi)容進(jìn)行壓制。
Granite 3.2 是由 IBM 開發(fā)的一系列模型,包括語言模型、時(shí)間序列模型、地理空間模型、嵌入模型、推測性解碼模型、守護(hù)模型,以及在這次 3.2 版本中新增的視覺模型。
與 DeepSeek R1 蒸餾的 Qwen 2.5 7B 和 Llama 3.1 8B 類似,Granite 3.2 也將推理能力納入其語言模型中。然而,與基于 DeepSeek 的模型不同,IBM 聲稱他們開發(fā) Granite 3.2 的方法在提供推理性能的同時(shí)保持了安全性和穩(wěn)健性。
上圖顯示了 IBM 使用 AttaQ 基準(zhǔn)測試的結(jié)果。該基準(zhǔn)測試?yán)么蠹s 1,400 個(gè)問題,涵蓋欺騙、歧視、有害信息、藥物濫用或性內(nèi)容等類別,來測試目標(biāo)模型并評(píng)估其生成有害、不準(zhǔn)確或不良響應(yīng)的傾向。上述數(shù)據(jù)顯示,當(dāng)利用 DeepSeek R1 將推理能力賦予 Qwen 2.5 7B 和 Llama 3.1 8B 等較小模型時(shí),安全性和穩(wěn)健性受到負(fù)面影響,而 IBM 實(shí)施的思維鏈推理方法則保持了結(jié)果的完整性。
除了實(shí)施推理時(shí)這種內(nèi)在的安全維護(hù)方法外,作為 Granite 系列模型的一部分,IBM 還提供了名為 Granite Guardian 的配套防護(hù)模型,以進(jìn)一步改進(jìn)內(nèi)置性能,并幫助企業(yè)在任何選擇的模型(不僅僅是 Granite 模型)旁實(shí)施防護(hù)措施。Granite Guardian 首次在去年作為 IBM 初始 Granite 3.0 發(fā)布的一部分引入,用于評(píng)估輸入提示和輸出響應(yīng)中的偏見、安全性和幻覺。更具體地說,這些模型被訓(xùn)練用于檢測越獄、偏見、暴力、褻瀆、性內(nèi)容、不道德行為以及 RAG 和函數(shù)調(diào)用幻覺。雖然這些功能在之前的版本中也可用,但根據(jù) IBM 的說法,最新的 3.2 版本保持了相同的性能,但使用的活躍參數(shù)減少了 40%。這種參數(shù)減少顯著改善了成本和延遲。
關(guān)于成本,DeepSeek R1 通過其 API 每百萬輸出 token 約為 2.19 美元,而在 watsonx.ai 上運(yùn)行的 Granite 模型每百萬輸出 token 的成本在 0.10 至 0.20 美元之間,同時(shí)仍然保持了 IBM 模型的可信特性,成本降低了一個(gè)數(shù)量級(jí)。這些成本適用于通過云提供商部署的模型。當(dāng)本地部署時(shí),成本將根據(jù)本地設(shè)置而有所不同。然而,云提供商部署成本可以作為一個(gè)良好的參考,表明擴(kuò)展本地實(shí)施所需的相對(duì)投資量。
這些因素并不一定意味著如果 DeepSeek 是適合工作的工具,你就不能或不應(yīng)該使用它。然而,它們確實(shí)強(qiáng)調(diào)了在選擇作為企業(yè) AI 系統(tǒng)基礎(chǔ)的模型時(shí),需要一個(gè)全面的風(fēng)險(xiǎn)評(píng)估和管理框架,該框架考慮成本、性能、安全性、安全性以及數(shù)據(jù)和訓(xùn)練合規(guī)性。在大多數(shù)應(yīng)用中,企業(yè)必須優(yōu)先考慮強(qiáng)大的安全措施、定期合規(guī)評(píng)估和持續(xù)監(jiān)控,以減輕與實(shí)施此類系統(tǒng)相關(guān)的固有風(fēng)險(xiǎn)。評(píng)估確保運(yùn)營完整性的總成本應(yīng)該是決定因素,而不僅僅是每個(gè) token 的成本。