上午9時,重慶市渝北區菲利信科技有限公司的辦公室內,25歲的蔡川軍開始了一天的工作。電腦螢幕上,一款語言類人工智能大模型正在總結小説《紅樓夢》第四回的內容。蔡川軍發現,總結中缺少了幾個重要劇情,便只給了這條結果3分,並在備註欄中將其缺漏一一列出。
蔡川軍畢業于重慶郵電大學計算機專業,目前是一名人工智能大模型訓練師。他的日常工作就是通過標注數據、評判結果,讓大模型生成的內容越來越精準。
一個成熟的人工智能大模型,演算法、算力、數據3方面缺一不可。其中,大量高品質的數據有助於不斷提高大模型的準確率,這離不開訓練師的努力。他們通過清洗、整合、標注等操作,生成滿足機器學習訓練要求的可讀數據編碼。
蔡川軍這一上午的工作內容,是訓練人工智能全文摘要功能,對大模型的摘要結果進行打分和評價。大模型在收到訓練師的反饋後,會以此調整演算法參數權重,不斷優化生成結果。對普通用戶而言,隨著大模型不斷優化,他們會發現人工智能越來越“懂”人類。
午休過後,蔡川軍開始進行機器視覺大模型的標注工作。具體來説,他需要以自己的審美,對資料庫中的服飾圖片評分,並對其風格進行判斷。
“這也是數據標注的一種,我如何標注圖片,人工智能就如何認識這些數據。”蔡川軍一邊點擊滑鼠一邊説。當人們使用人工智能生成圖片時,大模型能否理解“穿著西裝的男人”“穿衣風格帥氣的女生”等指令,給出令人滿意的反饋,就看訓練師的標注品質。
“訓練師的工作分為標注和質檢兩類,標注品質較高且穩定的訓練師,就能負責質檢任務。”菲利信科技員工趙楊説。2019年進入公司的趙楊,剛開始也是一名訓練師,經過多個項目的歷練,經驗豐富的他成長為培訓師,負責新員工的培訓、標注標準制定等工作。
去年蔡川軍初入公司時,接受了為期兩周的培訓,趙楊就為他授過課。“課程主要包括系統操作、數據分類、標注規則等,幫助新入職員工快速上手。”趙楊説,“做人工智能大模型訓練師,我們更看重一個人的專業知識儲備。”
沒有經過訓練的大模型就像一張白紙,需要不斷投喂優質數據才能成長,這便對訓練師的專業知識儲備提出了更高要求。“例如,與醫療相關的大模型,我們會讓有醫學背景的員工來訓練數據。”趙楊説。
除了專業知識,這項工作有時對訓練師的性格也有要求。“訓練師的審美、性格、思考方式等,都會對人工智能産生影響。例如一款大模型的定位是用戶的‘夥伴’,我們就會通過性格測試,優先讓具有溫柔、開朗等性格特徵的員工參與。”趙楊介紹。
在菲利信科技,像蔡川軍、趙楊這樣的訓練師有1500多名,他們通過標注數據、評判結果,讓大模型生成的內容越來越精準,助力人工智能行業發展。
近年來,渝北區人力資源和社會保障局持續強化數字人才培育,突出服務産業、就業與人才3個導向,促進産業鏈、培訓鏈與就業鏈銜接。近3年,全區累計從業人員達3萬人,覆蓋人工智能、大數據、機器人等前沿領域。(記者 王欣悅)
1、“國際在線”由中國國際廣播電臺主辦。經中國國際廣播電臺授權,國廣國際在線網絡(北京)有限公司獨家負責“國際在線”網站的市場經營。
2、凡本網註明“來源:國際在線”的所有信息內容,未經書面授權,任何單位及個人不得轉載、摘編、複製或利用其他方式使用。
3、“國際在線”自有版權信息(包括但不限于“國際在線專稿”、“國際在線消息”、“國際在線XX消息”“國際在線報道”“國際在線XX報道”等信息內容,但明確標注為第三方版權的內容除外)均由國廣國際在線網絡(北京)有限公司統一管理和銷售。
已取得國廣國際在線網絡(北京)有限公司使用授權的被授權人,應嚴格在授權範圍內使用,不得超範圍使用,使用時應註明“來源:國際在線”。違反上述聲明者,本網將追究其相關法律責任。
任何未與國廣國際在線網絡(北京)有限公司簽訂相關協議或未取得授權書的公司、媒體、網站和個人均無權銷售、使用“國際在線”網站的自有版權信息産品。否則,國廣國際在線網絡(北京)有限公司將採取法律手段維護合法權益,因此産生的損失及為此所花費的全部費用(包括但不限于律師費、訴訟費、差旅費、公證費等)全部由侵權方承擔。
4、凡本網註明“來源:XXX(非國際在線)”的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,豐富網絡文化,此類稿件並不代表本網贊同其觀點和對其真實性負責。
5、如因作品內容、版權和其他問題需要與本網聯繫的,請在該事由發生之日起30日內進行。