近日,中文通用大模型綜合性評測基準SuperCLUE正式發佈。該機構利用SuperCLUE測試基準,對市面上主流的支持中文的通用大模型進行了評測與排名。從排名中看到,GPT-4一騎絕塵,已經非常接近人類的能力。國産大模型中訊飛科技研發的星火認知大模型總排名第三,國內排名第一。
中文大模型在不同任務上的表現如何;與國際代表性模型相比,中文大模型的表現達到了何種程度;中文大模型與人類表現相比如何……該模型可通過多個層面,考驗市面上主流的中文GPT大模型的能力。其中,基礎能力包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創作等10項能力;專業能力包括了中學、大學與專業考試,涵蓋了從數學、物理、地理到社會科學等50多項能力;中文特性能力針對有中文特點的任務,包括了中文成語、詩歌、文學、字形等多種能力。
排行榜會定期更新,並於CLUEbenchmarks官方網站進行公示。(新安晚報 記者 項磊)
1、“國際在線”由中國國際廣播電臺主辦。經中國國際廣播電臺授權,國廣國際在線網絡(北京)有限公司獨家負責“國際在線”網站的市場經營。
2、凡本網註明“來源:國際在線”的所有信息內容,未經書面授權,任何單位及個人不得轉載、摘編、複製或利用其他方式使用。
3、“國際在線”自有版權信息(包括但不限于“國際在線專稿”、“國際在線消息”、“國際在線XX消息”“國際在線報道”“國際在線XX報道”等信息內容,但明確標注為第三方版權的內容除外)均由國廣國際在線網絡(北京)有限公司統一管理和銷售。
已取得國廣國際在線網絡(北京)有限公司使用授權的被授權人,應嚴格在授權範圍內使用,不得超範圍使用,使用時應註明“來源:國際在線”。違反上述聲明者,本網將追究其相關法律責任。
任何未與國廣國際在線網絡(北京)有限公司簽訂相關協議或未取得授權書的公司、媒體、網站和個人均無權銷售、使用“國際在線”網站的自有版權信息産品。否則,國廣國際在線網絡(北京)有限公司將採取法律手段維護合法權益,因此産生的損失及為此所花費的全部費用(包括但不限于律師費、訴訟費、差旅費、公證費等)全部由侵權方承擔。
4、凡本網註明“來源:XXX(非國際在線)”的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,豐富網絡文化,此類稿件並不代表本網贊同其觀點和對其真實性負責。
5、如因作品內容、版權和其他問題需要與本網聯繫的,請在該事由發生之日起30日內進行。