9月28日,人工智能高品質數據集生態發展大會在重慶市永川區舉行。會上,重慶市大數據應用發展管理局與永川區政府簽署協議,共同建設“重慶市數據集建設應用基地”。這也是全市首個數據集建設應用基地。
此次落戶永川的“重慶市數據集建設應用基地”,將聚焦建強公共數據標注平臺,全面提升數據集建設能力。市大數據局將支持永川屬地企業參與重慶城市可信數據空間的數據集建設,在資源對接、實施交付、標注工具能力提升等方面提供支持;將支持永川建立適配超大城市現代化治理需求的數據標注治理流程,提升數據標注效率與可用性,有效支撐全市AI能力體系和業務場景。
會上,西部數據標注研究院、西部數據集生産基地也同步揭牌成立。
西部數據標注研究院是由中國信息協會與永川區政府共同發起成立的數字技術共享平臺、數字産業孵化平臺及數字生態構建平臺。研究院將聚焦人工智能與數字重慶建設雙向賦能,圍繞人工智能、高品質數據集、數據標注等領域,開展新興技術科研創新、頂層設計、課題研究、標準制定、品質評測等業務,並組建專家智庫,培養複合型數據標注人才。
西部數據集生産基地由中國信息協會與永川區政府共建。協會將依託會員企業資源,推動更多數據集生産類企業落地永川,雙方合力促成數據要素在永川匯集,打造基地以帶動西部、輻射全國數據産業。
永川作為重慶市數字經濟發展的重要承載區,近年來依託重慶雲谷·永川大數據産業園,積極承接國家“數據要素×”行動計劃,將數據標注産業作為推動數字經濟和實體經濟深度融合的重要抓手,至今已集聚數據標注類企業18家,建成標注坐席1.2萬席,2024年相關業務營收達13.76億元,佔到了全市總量的65%,並成為西南地區最大的數據標注産業基地。(記者 周雨)
新聞多一點>>>
數據集和數據標注是什麼
二者是人工智能和機器學習領域最核心最基本的概念。
數據標注是一個過程,指的是對原始數據(如圖片、文本、音頻、視頻)進行加工,為其添加有意義的標簽或註釋,以告訴機器學習模型這些數據“是什麼”或“包含了什麼”。核心目的是為模型提供“標準答案”或“學習資料”,讓它能夠學會識別和理解數據中的特定模式。
數據集是一個集合,指的是為特定目的而收集、整理在一起的數據的總體。它是機器學習模型的“糧食”和“燃料”。數據標注和數據集的關係是過程與結果、部分與整體的關係,二者密不可分。簡而言之,通過“數據標注”這個過程,將“原始數據”加工成有價值的“數據集”,從而餵養和訓練出智慧的AI模型。沒有標注,數據就只是無意義的比特流;沒有數據,標注也就失去了對象。二者共同構成了AI發展的基石。(記者周雨整理)
1、“國際在線”由中國國際廣播電臺主辦。經中國國際廣播電臺授權,國廣國際在線網絡(北京)有限公司獨家負責“國際在線”網站的市場經營。
2、凡本網註明“來源:國際在線”的所有信息內容,未經書面授權,任何單位及個人不得轉載、摘編、複製或利用其他方式使用。
3、“國際在線”自有版權信息(包括但不限于“國際在線專稿”、“國際在線消息”、“國際在線XX消息”“國際在線報道”“國際在線XX報道”等信息內容,但明確標注為第三方版權的內容除外)均由國廣國際在線網絡(北京)有限公司統一管理和銷售。
已取得國廣國際在線網絡(北京)有限公司使用授權的被授權人,應嚴格在授權範圍內使用,不得超範圍使用,使用時應註明“來源:國際在線”。違反上述聲明者,本網將追究其相關法律責任。
任何未與國廣國際在線網絡(北京)有限公司簽訂相關協議或未取得授權書的公司、媒體、網站和個人均無權銷售、使用“國際在線”網站的自有版權信息産品。否則,國廣國際在線網絡(北京)有限公司將採取法律手段維護合法權益,因此産生的損失及為此所花費的全部費用(包括但不限于律師費、訴訟費、差旅費、公證費等)全部由侵權方承擔。
4、凡本網註明“來源:XXX(非國際在線)”的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,豐富網絡文化,此類稿件並不代表本網贊同其觀點和對其真實性負責。
5、如因作品內容、版權和其他問題需要與本網聯繫的,請在該事由發生之日起30日內進行。