2025年GDC｜“以人為本”大模型評測體系正式發(fā)布

2025-02-26 772

核心提示：大模型能力越來越強，各類評測榜單層出不窮，模型分數(shù)越刷越高，但大模型的能力對我們個人來說究竟有什么用，我們并不知道。2月2

“大模型能力越來越強，各類評測榜單層出不窮，模型分數(shù)越刷越高，但大模型的能力對我們個人來說究竟有什么用，我們并不知道。”2月22日，在2025全球開發(fā)者先鋒大會（GDC）“浦江AI生態(tài)論壇”上，上海人工智能實驗室雙聘研究員、上海交通大學教授翟廣濤表示，大模型終究要為人服務，當前以模型為中心的先出題、再做題、算分的評價模式面臨數(shù)據(jù)泄露和性能飽和兩大挑戰(zhàn)，大模型出現(xiàn)“高分低能”。

為了應對這種情況，上海人工智能實驗室提出了“以人為本”的評測思路。上海人工智能實驗室大模型開放評測平臺司南正式發(fā)布“以人為本”（Human-Centric eval）的大模型評測體系，系統(tǒng)評估大模型能力對人類社會的實際價值，為人工智能應用更貼近人類需求提供可量化的人本評估標注。

上海人工智能實驗室提出“以人為本”的評測思路。

傳統(tǒng)大模型基準測試普遍采用結果導向的評價標準，這種評價方式雖然能夠直觀反映模型性能，卻忽略了人類實際需求。司南團隊提出的評測方案根據(jù)人類需求設計實際問題，讓人與大模型協(xié)作解決，再由人類對模型的輔助能力進行主觀評分，以此補充客觀評價的不足，使評估更貼合人類感知。

其中，“認知科學驅動”評估框架圍繞解決問題能力、信息質量、交互體驗三大核心維度，構建覆蓋多場景、多領域的主觀評測體系。通過模擬學術研究、數(shù)據(jù)分析、決策支持等真實人類需求，由用戶與大模型協(xié)作完成任務，并基于人類主觀反饋量化評估模型的實際應用價值，為下一步技術研發(fā)與產業(yè)落地提供科學參考。

為了驗證“以人為本”評估方式的有效性，同時評測大模型在研究生學術研究中的應用價值，司南團隊選取了當前公認的優(yōu)秀模型DeepSeek-R1、GPT-o3-mini、Grok-3作為評測對象，組織有學術研究需求的研究生參與。團隊根據(jù)文獻綜述、數(shù)據(jù)分析、可行性研究等學術研究中的常見需求，設計了人工智能、法律、金融等8個領域的相關問題，研究生與大模型協(xié)作解決。實驗結果顯示，所有受測模型分析準確性、思考全面性、協(xié)助高效性維度能力均勢。DeepSeek-R1在解決生物、教育學科問題上表現(xiàn)突出；Grok-3在金融、自然領域優(yōu)勢明顯；GPT-o3-mini則在社會領域表現(xiàn)良好。

點贊 0反對 0舉報 0 收藏 0 打賞 0

更多>同類資訊

推薦圖文

賽默飛新品LabServ活	ibidi推出Silver Line
百林科推出全新 CytoL	賽默飛于第四屆進博會

推薦資訊

點擊排行

• 金域醫(yī)學發(fā)布《宮頸癌實驗室檢查數(shù)據(jù)集》，推動	• 全球首款！這個天府實驗室新成果可為企業(yè)節(jié)約測
• 中國科學院攜手崖州灣國家實驗室等單位聯(lián)合攻關	• 德國Massive Photonics推出多款DNA-PAINT各系試
• 江蘇庫利南取得一種實驗室用實驗臺專利，使得人	• 江蘇庫利南取得一種實驗室用實驗臺專利，使得人
• 美華高科取得實驗室用玻璃儀器氣流烘干器專利，	• 上海AI實驗室發(fā)布通用具身智能仿真平臺桃源2.0
• 蘇州安科眾達取得潔凈實驗室高效空氣凈化過濾裝	• 谷歌推出“AI實驗室助理”：能推理分析、提出假

亚洲色婷婷六月亚洲婷婷6月-国产av午夜精品一区二区三区-日韩国产丝袜人妻一二区-97人妻人人揉人人躁人人-国产精品视频一区二区噜噜-国内精品伊人久久久久av影院

2025年GDC｜“以人為本”大模型評測體系正式發(fā)布