国产做爰_日韩av一区二区在线观看_日本a视频_中文字幕在线第一页_亚洲视频欧美视频_日本中出视频

信息服務

企業AI:如何構建AI數據集

發布于:2024-09-26 點擊量:580 來源:至頂網

找和獲取構建企業數據集所需的數據,這對于那些希望構建自己的AI模型的組織來說是可能是最關鍵的一項任務。

咨詢公司Rockborne首席執行官Waseem Ali表示,即使有實踐經驗,事情也很容易出錯。“一切總是從數據開始的,如果你的數據不好,模型就不會好。”

相反他建議,很多時候,企業面臨的挑戰不應該是想要用他們的第一個項目征服世界,而是先進行試點,讓他們能夠走得更遠。

檢查數據或數字項目的具體業務需求和要求,詢問需要解決什么問題,需要查詢什么“預感”,但首先要避免深入研究“全局影響”。

正如工業物聯網專業公司Hexagon的AI負責人Johannes Maunz所解釋的,從第一原則開始著手獲取特定用例的數據。

Maunz說:“沒有一個深度學習模型可以解決所有用例。將現狀與需要改進的地方進行比較,需要捕獲哪些可用數據?以小規模或有限的方式進行,僅針對那一個用例。”

Hexagon的方法通常側重于自己的傳感器,其中包含墻壁、窗戶、門等建筑的數據。通過在瀏覽器中呈現的內容,Hexagon可以了解數據及其標準、格式、一致性等。

首先考慮企業已經擁有的、或者可以使用的、符合要求的數據和數據集。這通常需要與法律和隱私團隊密切合作,即使在工業內部環境中也是如此。Maunz建議,要確保指定使用的數據不包含任何私人個人信息。然后,企業就可以構建他們想要使用的模型并對其進行訓練——假設成本和可行性都已經到位。

接下來,你需要決策點透明度,以及信號值來評估可用性、可行性和業務效果等因素,或者潛在表現與競爭對手相比的數據等。

對于企業目前沒有的數據,可能需要一些合作伙伴或客戶協商來獲取。

Maunz表示:“坦率地說,人們是非常開放——但總要有一份合同。只有這樣,我們才能開始我們通常所說的數據活動。有時候超過所需量的數據也是有意義的,這樣企業就可以進行向下采樣。”

數據質量和簡單性至關重要

供應鏈咨詢公司BearingPoint的合伙人Emile Naus強調了對AI/ML數據質量的關注。要盡可能保持簡單,復雜性使正確的決策變得困難并且會損害結果——然后還有偏見和知識產權需要考慮。Naus補充說:“內部數據并不完美,但至少你可以了解它有多好。”

他警告說,與易于使用的2D線擬合甚至3D線擬合相比,由AI/ML驅動的復雜多維線擬合可以帶來更好的結果——優化生產、解決方案“配方”、最大限度地減少浪費等等——如果企業能夠“自由”地獲取所需的數據。

“和所有的模型一樣,因為AI模型被用于構建另一個模型,而模型總是出錯,因此數據治理是關鍵。你沒有的部分實際上可能更重要,你必須弄清楚數據的完整性和準確性。”

鄧白氏(D&B)數據和分析高級副總裁Andy Crisp建議使用客戶洞察和關鍵數據元素來建立數據質量標準和公差、測量和監控。

Crisp表示:“例如,[客戶想要的、或從我們這里獲得的]數據也可能會為他們的模型提供信息,我們正在進行大約460億次數據質量計算,獲取我們的數據,然后可能根據這些標準再次進行計算,然后每月發布數據質量觀察結果。”

例如,通過特定標準,特定屬性必須表現得足夠好,才能傳遞給下一個團隊,團隊采用這些標準和公差、這些測量和觀察點的結果,與數據管理部門合作獲取、整理和維護數據。

“花時間做事并加深理解,別無他法。這就像,從切割一塊木頭開始,然后檢查長度,防止接下來你完全錯誤地切割了50塊木板。”

企業需要“知道什么是好的”,以提高數據性能和洞察力,然后將它們整合在一起。保持問題陳述的嚴謹性,縮小所需數據集的數據識別范圍。細致的注釋和元數據可以實現控制數據集的管理,實現真正科學的方法,識別偏差并幫助最大限度地減少偏差。

謹防將多個因素混為一談的大膽陳述,確保要“測試到破壞”,這是IT企業不想“快速行動并打破常規”的一個領域。所有使用的數據都必須符合標準,而且必須不斷檢查和補救。

“測量和監控,補救和改進,”Crisp指出,鄧白氏的質量工程團隊是由全球約70名團隊成員組成的,“高質量的工程能力將有助于減少幻覺等。”

Informatica北歐、中東和非洲地區副總裁Greg Hanson也認為,制定目標至關重要,可以幫助企業確定如何最好地利用時間進行信息編目、信息整合、訓練AI以支持結果所需的數據。

即使是企業自己的數據通常也會分散并隱藏在不同位置、云或本地環境中。

Hanson說:“對所有數據資產進行編目,了解這些數據所在的位置,也可以考慮使用AI來加快數據管理的速度。”

確保在采集數據之前進行治理

在AI引擎采集數據之前要實施所有的數據質量規則,并假設已經采取了適當的治理和合規性。如果企業沒有進行衡量、量化和修復,那么只會更快地做出錯誤決策,Hanson補充說:“記住:垃圾進,垃圾出。”

數據套件廠商Precisely的首席技術官Tendü Yogurt?u表示,根據規模和行業類型,企業可以考慮成立指導委員會或跨職能委員會,幫助定義所有相關AI計劃的最佳實踐和流程。也可以通過識別團隊之間的常見用例或模式來幫助加速進程,隨著組織從試點和生產中學習,這些用例或模式本身也會持續發生變化。

數據治理框架可能需要擴展以涵蓋各種AI模型。話雖如此,潛在的AI用例比比皆是。

“以保險行業為例。為了模擬風險和定價準確性,保險公司需要有關野火和洪水風險、地塊地形、地塊內建筑物的確切位置、與消防栓的距離以及與加油站等潛在危險點的距離等詳細信息,”Yogurt?u解釋說。

然而,咨詢公司Slalom的高級數據和分析負責人Richard Fayers警告稱,構建AI模型(尤其是生成式AI)可能會花費不菲。

“也許,在某些領域企業可以合作——比如法律或醫學,我們開始看到價值的地方,就是當你用你的數據增強生成式AI的時候——你可以用各種方法來實現它。”

例如,在建筑領域,用戶可以使用自己的數據集和文檔來補充大型語言模型,以供查詢。類似做法還有票務搜索平臺,平臺可以智能地考慮一組基于自然語言的標準,這些標準并非與元數據和標簽一一相關。

“例如,你可以使用一個票務平臺來發現‘適合兒童觀看的周末演出’,目前這種搜索類型是相當困難的,”Fayers說。

他說,即使是ChatGPT之類的數據集構建和提示工程,為了實現更有“對話性”的方法,仍然需要關注數據質量和治理,提示工程將成為一項需求旺盛的基本技能。

【版權聲明】:本站內容來自于與互聯網(注明原創稿件除外),如文章或圖像侵犯到您的權益,請及時告知,我們第一時間刪除處理!
主站蜘蛛池模板: 色二区 | 一区不卡| 视频国产一区 | 久久久精品视频国产 | 成人激情免费视频 | 欧美性猛交一区二区三区精品 | 天堂资源 | 日韩精品在线播放 | 视频一区中文字幕 | 综合色九九 | 四季久久免费一区二区三区四区 | 久久69精品久久久久久久电影好 | 日韩一区二 | 国产精品视频一二三区 | 伊人一区 | 国产无套丰满白嫩对白 | 人人做人人澡人人爽欧美 | 久久a国产| 免费一级片在线观看 | 久久久一区二区 | 欧美日韩一区二区三区在线电影 | 国产精品久久久久久福利一牛影视 | 99久久精品国产一区二区三区 | 欧美一区 | 欧美精三区欧美精三区 | 一级全黄性色生活片 | 欧美人成在线观看 | baoyu123成人免费看视频 | 色爱区综合五月激情 | 免费一二区 | 亚洲成人一区二区 | 日韩成人在线播放 | 91在线你懂的 | 大象一区 | 亚洲美女网站 | 国产毛片毛片 | 91免费视频 | 久久大香| 亚洲国产精品99久久久久久久久 | 国产精品高清在线 | 色综合天天综合网国产成人综合天 |