明声报(多伦多版) mingshengbao.com

港大研究中美37语言模型指AI严守指令易虚构答案(图)

发布 : 2025-9-10 来源 : 明报新闻网

用微信扫描二维码，分享至好友和朋友圈

【明报专讯】香港大学经管学院昨发表《大语言模型幻觉控制能力测评报告》，团队?x??37个中美大语言模型（LLM）在中文语境的「幻觉控制能力」，反映模型目前普遍存在「严守指令，但易虚构事实」的倾向。

团队表示各行业正将LLM应用于专业场景，但AI「幻觉」现象是制约其可信度的关键瓶颈。团队在不同AI输入多种指令（见表），例如问中国经典诗词「独在异乡为异客」的前一句，AI误答「每逢佳节倍思亲」，事实「独在异乡为异客」为全诗首句，反映AI无指出指令有矛盾。

最高分GPT 5（思考模式）

团队称「幻觉控制能力」最高分的LLM是美国AI开发商OpenAI的「GPT 5（思考模式）」，获86分；字节跳动公司的「豆包1.5 Pro系列」排第7名，获73分，团队赞其表现突出、领先国产模型阵营，「但与国际顶尖模型之间仍存在显著差距」，又指出DeepSeek系列的幻觉控制能力「稍显逊色，有待加强」。

最低分为内地讯飞星火的「Spark 4.0 Ultra」，获41分。

港闻

热点文章