国产做爰_日韩av一区二区在线观看_日本a视频_中文字幕在线第一页_亚洲视频欧美视频_日本中出视频

信息經(jīng)濟

盤點20多個強大且免費的數(shù)據(jù)源,任何人都能以此來構(gòu)建AI

發(fā)布于:2023-06-12 點擊量:1914 來源:至頂網(wǎng)軟件與服務(wù)頻道

當我們談?wù)摦斀裆虡I(yè)領(lǐng)域和社會中的人工智能時,我們其實指的是機器學習。機器學習是一種應(yīng)用,通過使用算法(一組指令)變得越來越擅長執(zhí)行某項特定任務(wù),因為它接觸了越來越多與這項任務(wù)相關(guān)的數(shù)據(jù)。

這些任務(wù)可以是任何任務(wù),從回答問題、創(chuàng)建文本或圖像(如ChatGPT或Dall-E等應(yīng)用所能做的)到識別圖像(計算機視覺)或者把自動駕駛汽車從A地導航到B地。

所有這些任務(wù)都需要數(shù)據(jù),那些想要訓練自己的機器學習算法以自動執(zhí)行日常任務(wù)的企業(yè),他們需要一些數(shù)據(jù)源。

有哪些類型的數(shù)據(jù)?

企業(yè)數(shù)據(jù)通常分為兩類——內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)。

內(nèi)部數(shù)據(jù)是企業(yè)組織自己從運營過程中收集的數(shù)據(jù),這通常包括財務(wù)數(shù)據(jù)、客戶反饋數(shù)據(jù)、人力資源數(shù)據(jù)、運營數(shù)據(jù)、和其他更多來源的數(shù)據(jù)。某個組織在監(jiān)控其自身運營過程中收集的數(shù)據(jù)被稱為專有數(shù)據(jù),這種數(shù)據(jù)很有價值,因為它提供了有關(guān)特定業(yè)務(wù)的信息。

外部數(shù)據(jù)是來自組織外部來源的數(shù)據(jù),通常是從如下所列的第三方數(shù)據(jù)源收集而來。如果數(shù)據(jù)可供任何人免費使用,則稱為開放數(shù)據(jù)。

除此之外,數(shù)據(jù)還可以分為結(jié)構(gòu)化、非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)是可以很好地、整齊地放入表格中的信息——例如,顯示企業(yè)銷售的產(chǎn)品、時間、地點、價格的銷售數(shù)據(jù)就是內(nèi)部結(jié)構(gòu)化數(shù)據(jù)。或者,企業(yè)會選擇分析歷史市場數(shù)據(jù)和經(jīng)濟指標來預測他們面向市場的未來走勢(結(jié)構(gòu)化的外部數(shù)據(jù))。

非結(jié)構(gòu)化數(shù)據(jù)則是其他一切,例如圖片、視頻、文本和社交媒體內(nèi)容,當然也可以包含有價值的洞察,但更難于分析。不過,AI已經(jīng)被證明對于從非結(jié)構(gòu)化數(shù)據(jù)中提取意義特別有用處。例如,圖像識別算法可以通過分析店內(nèi)閉路電視圖像(內(nèi)部非結(jié)構(gòu)化數(shù)據(jù))來告訴企業(yè)有關(guān)客戶行為的有用信息,還可以通過分析社交媒體上發(fā)布的與業(yè)務(wù)相關(guān)的圖像(非結(jié)構(gòu)化外部數(shù)據(jù))來找到有價值的洞察。

所幸的是,數(shù)據(jù)無處不在。政府、研究機構(gòu)、私營公司、非政府組織都免費提供數(shù)據(jù)用于研究甚至商業(yè)目的。因此,這里羅列了一些2023年可用的免費在線數(shù)據(jù)最佳來源。

數(shù)據(jù)搜索引擎和存儲庫

Google Dataset Search——這實際上是谷歌編目的數(shù)據(jù)集的搜索引擎;使用這個搜索引擎可以查找你可能需要的幾乎所有內(nèi)容的數(shù)據(jù)。

AWS Open Data Search——另一個數(shù)據(jù)集搜索引擎,由亞馬遜的AWS提供。

Microsoft Research Open Data——由Microsoft收集的免費、開放的數(shù)據(jù)集,主要以科學為重點。

UCI Machine Learning Repository——由加州大學歐文分校策劃和維護的600多個開放數(shù)據(jù)集的存儲庫,可用于訓練機器學習算法。

Kaggle Datasets——在線數(shù)據(jù)科學平臺Kaggle還提供了精選的數(shù)據(jù)集目錄,涵蓋從大學排名到谷歌搜索趨勢、零售銷售、在線電影評論和犯罪統(tǒng)計數(shù)據(jù)的所有內(nèi)容。

Reddit R/Datasets——由在線社區(qū)網(wǎng)站Reddit的用戶提交的龐大數(shù)據(jù)集,涵蓋了數(shù)百個主題。

政府和政府間組織的數(shù)據(jù)集

Data.Gov——美國政府提供的開放數(shù)據(jù)門戶,托管了政府機構(gòu)發(fā)布的一百萬個數(shù)據(jù)集中的近四分之一數(shù)據(jù)。

Data.Census.Gov——如果你專門尋找美國的人口統(tǒng)計數(shù)據(jù),這是一個很好的起點!

Data.EU——歐盟的開放數(shù)據(jù)門戶,包含了來自歐盟組織的數(shù)據(jù)和成員國政府的數(shù)據(jù)。

Data.gov.uk——英國政府機構(gòu)發(fā)布的開放數(shù)據(jù)集。

World Health Organization Data——與全球健康和福祉相關(guān)的數(shù)據(jù)集。

World Bank Open Data——與經(jīng)濟發(fā)展、國際金融市場、社會指標和環(huán)境問題相關(guān)的數(shù)據(jù)集。

圖像數(shù)據(jù)

Google Open Images——數(shù)以百萬計的圖像以各種方式分類和標記,用于訓練許多不同類型的計算機視覺算法。

ImageNet Open Dataset——另一個由標記圖像組成的數(shù)據(jù)集,可免費用于非商業(yè)機器學習應(yīng)用。

COCO Dataset——Common Objects in Context (COCO)數(shù)據(jù)集中包含了超過200000張圖像,這些圖像被選擇用于訓練對象檢測和字幕算法。

聲音數(shù)據(jù)

Mozilla Common Voice——一個開放的錄音數(shù)據(jù)集,可用于訓練任何涉及語音的AI應(yīng)用。

Audioset——另一個由谷歌策劃的數(shù)據(jù)集,這個數(shù)據(jù)集專注于聲音,包含數(shù)十萬個10秒樣本,這些樣本被分解為樂器、車輛和人聲等類別。

Million Song Dataset——來自一百萬個當代流行音樂曲目的樣本和元數(shù)據(jù)。

文本數(shù)據(jù)

Wikidata——多種不同格式的維基百科文章的數(shù)據(jù)庫下載。

Common Crawl——一個從萬維網(wǎng)上抓取的開放數(shù)據(jù)存儲庫,最知名的用途就是對ChatGPT和其他聊天機器人的GPU大型語言模型進行訓練。

其他和雜項數(shù)據(jù)集

Amazon Reviews——包含約3500萬條亞馬遜產(chǎn)品評論的數(shù)據(jù)庫,包括產(chǎn)品信息和評級。

Waymo Open Dataset——Alphabet自動駕駛子公司W(wǎng)aymo公開了通過自動駕駛車輛收集的大量數(shù)據(jù),包括來自攝像頭和LiDAR傳感器數(shù)據(jù)。

Apolloscape Dataset——更多的自動駕駛數(shù)據(jù),是由百度開源Apollo平臺提供的。

【版權(quán)聲明】:本站內(nèi)容來自于與互聯(lián)網(wǎng)(注明原創(chuàng)稿件除外),如文章或圖像侵犯到您的權(quán)益,請及時告知,我們第一時間刪除處理!
主站蜘蛛池模板: 久久久久中文字幕 | 国产乱视频 | 91精品国产91久久久久久 | 韩国精品一区二区 | 国产在线一区不卡 | 国产精品久久久久av | 欧美日韩一区二区三区在线观看 | 成人亚洲视频 | 欧美一区二区三区免费视频 | 午夜视频免费在线观看 | 免费在线看a | 国内精品一区二区三区 | 黄片毛片毛片毛片 | 欧美成人精品激情在线观看 | 韩国一区二区视频 | 少妇精品久久久久久久久久 | 亚洲欧美日韩在线一区二区三区 | 久久99久久99精品免观看粉嫩 | 精品一区二区三区中文字幕 | 天天干天天操天天干 | 欧美人交a欧美精品 | 日韩欧美一区二区三区久久婷婷 | 色视频在线看 | 色香阁99久久精品久久久 | 亚洲精品毛片一区二区 | 日本中文字幕在线播放 | 国产一区二区三区视频在线观看 | 视频一区二区三区在线观看 | 欧美成人免费在线 | 日韩成人影院 | 日韩三区| 伊人欧美一区 | 亚洲福利一区二区 | 一本色道精品久久一区二区三区 | 国产精品美女久久久久久不卡 | 国产精品久久久久久亚洲调教 | 中文字幕一区二区三 | 999精品嫩草久久久久久99 | 午夜看片 | 国产成人精品一区二区 | 超碰在线99 |