谷歌DeepMind与布朗大学合作开发的“力提示”(force prompting)技术,为视频生成领域带来突破。该技术无需3D模型或物理引擎,仅通过指定力的方向和强度,即可生成自然流畅的运动效果。支持全局力(如风)和局部力(如敲击)两种模式,力以矢量场形式输入系统。研究基于CogVideoX-5B-I2V模型,加入ControlNet模块处理数据,利用Transformer架构生成49帧视频,仅需4台Nvidia A100 GPU训练一天。训练数据完全合成,包括旗帜飘动、球体滚动等场景。模型在文本提示中加入物理术语后,能自动建立正确的力与运动关系,并展现出强大的泛化能力。用户测试显示,“力提示”技术在运动匹配度和真实感上优于基准模型,尽管在复杂场景中仍存不足,但其进步标志着AI正逐步理解物理规则,迈向更通用的人工智能。DeepMind首席执行官Demis Hassabis认为,这是AI发展的重要一步。
扫码关注二维码
2025-05-30 11:53
2025-05-29 18:35
2025-05-29 11:12
2025-05-30 13:40
2025-05-31 12:02
2025-05-29 11:17
扫码加入社群
扫一扫
关注亿恩公众号