港大研究中美37语言模型 指AI严守指令易虚构答案(图)
发布 : 2025-9-10 来源 : 明报新闻网

用微信扫描二维码,分享至好友和朋友圈
【明报专讯】香港大学经管学院昨发表《大语言模型幻觉控制能力测评报告》,团队?x??37个中美大语言模型(LLM)在中文语境的「幻觉控制能力」,反映模型目前普遍存在「严守指令,但易虚构事实」的倾向。
团队表示各行业正将LLM应用于专业场景,但AI「幻觉」现象是制约其可信度的关键瓶颈。团队在不同AI输入多种指令(见表),例如问中国经典诗词「独在异乡为异客」的前一句,AI误答「每逢佳节倍思亲」,事实「独在异乡为异客」为全诗首句,反映AI无指出指令有矛盾。
最高分GPT 5(思考模式)
团队称「幻觉控制能力」最高分的LLM是美国AI开发商OpenAI的「GPT 5(思考模式)」,获86分;字节跳动公司的「豆包1.5 Pro系列」排第7名,获73分,团队赞其表现突出、领先国产模型阵营,「但与国际顶尖模型之间仍存在显著差距」,又指出DeepSeek系列的幻觉控制能力「稍显逊色,有待加强」。
最低分为内地讯飞星火的「Spark 4.0 Ultra」,获41分。