LMArena(原 LMSYS Chatbot Arena)是由加州大学伯克利分校 LMSYS 团队维护的大型语言模型评测与对比平台。其核心功能是盲测竞技场:用户向两个匿名 AI 模型同时发出相同问题,在不知道模型身份的情况下评判哪个回答更好,系统基于大量用户投票计算出 Elo 评分排行榜。这一由真实用户驱动的评测方法被认为比传统学术基准测试更能反映模型在实际使用中的表现,已成为业界最权威的 LLM 综合排名参考之一。
LMArena 收录了 GPT-4o、Claude、Gemini、Llama、Mistral、DeepSeek 等数十个主流与前沿模型,排行榜数据持续更新并公开透明。平台还提供 Side-by-Side 模式让用户直接对比两个指定模型的输出差异,以及针对代码、数学、创意写作等细分场景的专项排名。对于 AI 研究者、产品经理和希望在众多模型中做出选型决策的技术团队而言,LMArena 是不可缺少的参考工具。
- 真实用户驱动的 Elo 排行榜:基于百万级人类偏好投票计算模型综合排名,比学术基准更贴近实用表现
- 匿名盲测竞技场:消除品牌偏见,让用户纯粹基于回答质量评判模型优劣
- 多场景细分排名:提供代码、数学、创意写作等专项 Elo 榜单,辅助精准的模型选型决策
数据统计
数据评估
关于LMArena特别声明
本站AI之旅导航提供的LMArena都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AI之旅导航实际控制,在2026年5月24日 下午2:53收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI之旅导航不承担任何责任。
相关导航
暂无评论...
