OpenAI近日推出名为GDPval的新型AI评估体系,旨在衡量前沿模型在真实经济任务中的实际表现,弥补学术测试与现实应用间的鸿沟。该基准覆盖美国九大高贡献行业中的44个职业,涵盖1320项由资深专业人士设计的具体任务,并要求模型输出文件、幻灯片等多模态成果,提升评测真实性。首轮测试显示,Claude Opus 4.1综合表现最佳,GPT-5在专业准确性上领先。研究还发现,前沿模型完成任务速度较人类快约100倍,成本仅为百分之一。但OpenAI指出,当前版本尚未涵盖需反复迭代或高度交互的复杂场景,未来将扩展覆盖范围并开放部分数据集。
扫码关注二维码
扫码加入社群
扫一扫
关注亿恩公众号