联系我们

新闻投稿:jingjing@enec.net

商务合作:coco@enec.net

搜索
下载亿恩app

OpenAI发布GDPval评估基准,衡量AI真实经济价值表现

2小时前

OpenAI近日推出名为GDPval的新型AI评估体系,旨在衡量前沿模型在真实经济任务中的实际表现,弥补学术测试与现实应用间的鸿沟。该基准覆盖美国九大高贡献行业中的44个职业,涵盖1320项由资深专业人士设计的具体任务,并要求模型输出文件、幻灯片等多模态成果,提升评测真实性。首轮测试显示,Claude Opus 4.1综合表现最佳,GPT-5在专业准确性上领先。研究还发现,前沿模型完成任务速度较人类快约100倍,成本仅为百分之一。但OpenAI指出,当前版本尚未涵盖需反复迭代或高度交互的复杂场景,未来将扩展覆盖范围并开放部分数据集。

更多精彩内容,请关注亿恩网微信公众号: (ENECNEWS

扫码关注二维码

) 每天为您推送最新,最热干货!
声明:亿恩网原创稿件,未经授权不得以任何方式转发。转载请联系:yujie@enec.net
分享:
7204 0 0
热门词条

引流

跨境大卖

广告费

人工智能

加拿大

Snapchat

产品安全

北美

天猫618

Zalando

标题

操纵评论

二审

泰国

服务商

申诉

关联

产品侵权

千禧一代

国产

社群

扫码加入社群

公众号

扫一扫
关注亿恩公众号

顶部