中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當前的位置是:  首頁 > 資訊 > IT與互聯網 >
 首頁 > 資訊 > IT與互聯網 >

ChatGPT熱潮下的冷思考——AI數據集發(fā)展現狀、挑戰(zhàn)及建議

2023-04-04 11:57:22   作者:   來源:天翼智庫   評論:0  點擊:


  2023年3月14日,OpenAI發(fā)布了多模態(tài)大模型的最新版本GPT-4,通過采用更大規(guī)模的數據集進行訓練,其推理能力超過了ChatGPT,已成為目前最成功、最受歡迎的大模型。

  但GPT-4仍有很多限制,如對數據集的篩選、清洗等不充分,導致輸出內容出現社會偏見、幻覺和對抗性提示等。同時據Appen(全球最大的AI數據服務公司)調查發(fā)現,41%的AI領域從業(yè)者認為數據管理將是AI發(fā)展面臨的最大障礙。DeepMind團隊也指出,在對訓練數據集進行擴展時,需要重點關注數據集的質量管理,尤其是其中的倫理和隱私等問題。

  AI領域典型大模型(ChatGPT)的數據集簡介

  ChatGPT的出現,打破了人們對AI技術復雜、使用門檻高的固有思維。雖然谷歌提出了比ChatGPT高10倍參數量的大模型(如Switch Transformer),且ChatGPT的核心算法采用谷歌提出的Transformer架構,但是谷歌卻敗給了OpenAI。我們分析數據規(guī)模、數據處理方式、用戶數據-模型飛輪是ChatGPT成功的關鍵。

  1. 龐大的數據集規(guī);A

  ChatGPT訓練的數據集主要包括網站、書籍、社交媒體平臺等,80%以上的數據集來自GPT3使用的數據集。這些數據集包含大量的文本數據,用于自然語言處理等領域的研究和應用。

  二、高效的數據處理方式

  鄭緯民院士認為,ChatGPT在基礎技術方面并未有大的突破,主要是在數據清洗、人工標注反饋和整體系統(tǒng)工程化方面取得了進展,從而使其整體效果相比之前的系統(tǒng)取得了較大飛躍。OpenAI團隊也表示他們采用了多項措施確保數據集的質量和準確性,尤其數據篩選、數據收集、工程化(千億級token編碼、人工標注)等起了關鍵作用。

  3. 爆發(fā)式的用戶數據促進產品質量與用戶規(guī)模形成飛輪效應

  ChatGPT的服務開放給公眾,同時可收集海量、多樣化的數據,搶得數據獲取先機。幾億用戶為ChatGPT貢獻數據,進一步訓練和微調使得ChatGPT更符合用戶需求,吸引更多用戶為其免費提供數據。由此模型的數據飛輪快速轉動起來,用戶數據質量越高,迭代模型效果越好。

  由ChatGPT的分析可知,數據集將是決定模型好壞的關鍵。據DeepMind 研究團隊預測大模型所需數據集規(guī)模隨參數量的增加而增加。然而隨著數據集規(guī)模增加,相應數據質量將越難控制。數據集的管理將是大模型發(fā)展面臨的一大困境。

  AI數據集的整體現狀

  隨著大模型的持續(xù)火熱,大規(guī)模、多樣化數據集因模型的高參數、通用化需求也受到關注。我們將從數據集的布局、特點來分析目前數據集的發(fā)展現狀。

  一、 AI數據集的來源及分布

  從數據集來源看,AI數據集主要來自美國且以英語語言為主,包括微軟、斯坦福、谷歌等機構提供的數據集以及互聯網爬蟲數據集,見表1。AI數據集根據數據類型可分為文本、圖像、音頻、視頻等,不同的AI任務根據其任務特點選擇不同類型的數據集,如語言模型任務選WikiText-2文本類數據集,人臉識別選VGGface2圖像類數據集等。

  表1 AI數據集簡介

  備注:mC4是 C4(Colossal Clean Crawled Corpus)的一個變體:Common Crawl的網絡爬蟲語料庫的一個大型、干凈的版本。

  從數據集分布看,全球數據集使用不平等情況凸顯,據加利福尼亞大學和Google研究機構發(fā)現,機器學習和自然語言處理模型使用的數據集50%由12家Top機構提供(如圖1左),其中10家為美國機構,僅2家機構來自德國和中國。據圖1(右)發(fā)現,數據集與數據機構的基尼系數有升高的趨勢,即數據集被少數Top機構或特定數據庫掌控的集中有所增加。

  2. AI數據集的特點

  目前AI數據集的發(fā)展已呈現大規(guī)模、多樣化、實時性等特點。

  一是數據集規(guī)模因大模型等場景需求爆發(fā)式增長,例如華為盤古系列大模型訓練數據集為40TB,GPT-3.5大模型的數據集為超萬億單詞的人類語言數據集(約45TB);

  二是多種應用需求導致數據類型呈現多樣化,例如因機器翻譯、文本分類需求出現了OpenWebText2等文本類數據集,因人臉識別、圖像生成需求出現了以ImageNet為代表的圖像類數據集;

  三是高質量數據集實時性需求迫切,隨著AR、自動駕駛等場景的出現,社交媒體、交通數據集的采集和處理需要更加及時的反饋,以實現實時分析和決策。

  面臨的挑戰(zhàn)

  由于AI數據集大部分來源于互聯網公共數據集,包含用戶或企業(yè)的大量隱私、敏感信息,導致其在數據監(jiān)管、數據清洗、數據存量方面還存在很多挑戰(zhàn)。

  1. 數據來源的多樣性、復雜性不斷加深,加大數據安全風險

  OpenAI表示,其數據集是“互聯網規(guī)模的”,訓練數據來自“各種被許可、被創(chuàng)建和公開可用的數據源,其中可能包括公開可用的個人信息”。面對數量龐大、種類多樣的數據集調取與收集,若監(jiān)管不當極易產生數據竊取、隱私泄露、數據濫用等風險,損害公民的合法利益,甚至威脅國家安全。

  2. 內容涉及道德及倫理問題,引發(fā)社會偏見

  規(guī)模龐大的互聯網數據尤其容易帶有偏見及負面詞匯,即使進行過人工標注,數據集也會出現錯誤或道德問題。如微軟與bing團隊研發(fā)的對話式理解AI機器人Tay,因為數據集清洗、標注不充分,導致出現種族歧視等言論,被迫下架。

  3. AI領域需求的高質量數據集存量將耗盡

  訓練數據集需求增速有高于數據存量增速的趨勢,據Epoch AI研究團隊預測2022年至2100年間數據總量(包括可用的圖像和語言)以及未來大模型訓練數據集規(guī)模的增長趨勢,給出一個結論:到2026 年高質量的語言數據存量將耗盡,低質量的語言數據和圖像數據的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。

  關于AI數據集未來發(fā)展的建議

  針對當前AI數據集存在的問題,建議從加強數據監(jiān)管、提升數據質量、提高數據存量三方面入手,進一步應對AI發(fā)展可能面臨的數據集困境。

  1. 加快推進AI背景下我國數據安全監(jiān)管

  完善面向ChatGPT等新場景的數據安全保護。建議政府與商業(yè)運營主體應采取合作監(jiān)管的模式,建立統(tǒng)一的數據監(jiān)管系統(tǒng),并針對不同類型的數據采取相應的監(jiān)管機制,對于開放數據應加強分級分類明確數據開放程度,對于共享數據應采取強制許可措施防止企業(yè)壟斷,對于專有數據應采用區(qū)塊鏈、隱私計算等技術保護其數據隱私。

  2. 加大對數據質量評估的關注

  提升獲取高質量數據集的比例。制定數據集評估標準(包括是否刪除重復數據、排除敏感信息、刪除隱私信息、刪除異常符號等),確保獲取數據集符合任務需求,從而提高整體數據集的質量。

  3. 利用AIGC技術構建新的數據集

  防患未來數據存量耗盡的危機。AI生成信息將是未來的趨勢,據Gartner預測,到2025年,大型企業(yè)機構對外營銷信息中的合成信息比例將從2022年的不到2%上升到30%。建議充分利用AIGC技術,根據模型的需求生成內容,轉化為新的數據集,為AI模型的訓練提供新的燃料。

【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關閱讀:

專題

CTI論壇會員企業(yè)