
数字生命世界模型 — 创造共生式数字生命,实现视频模态 AGI
Artificial Analysis I2V 排行榜 · 2025年10月
清华大学交叉信息研究院 计算机科学博士
导师:吴辰晔教授(姚期智院士课题组)、马恺声教授(北极雄芯创始人)
随机优化 · 多智能体系统 · 机制设计
· 华为「天才少年」计划入选者(2023)
· 主导 Avenger I2V 模型(全球排名第二)
· 连续完成两轮融资
从清华实验室到全球领先 — 在视频生成领域构建从算法到工程的端到端能力。
Avenger 模型精彩视频剪辑
覆盖算法、工程、产品与数据 — 核心技术成员均为顶尖高校博士
卡内基梅隆大学 硕士
· 3 次美国创业成功退出
· 前 TikTok 社交/创作/UGC 产品策略负责人
· 跨职能产品运营背景,具备全球化视野
北京大学 博士
· 腾讯技术专家,强化学习方向
· 主导 5000 卡 VLLM 训练集群
· 联合开发 Avenger 0.5 Pro
清华大学 博士 & 博士后
· 华为「天才少年」· 系统专家
· CUDA / OS / 编译器
· 前小米技术专家
香港大学 博士(清华本科)
· GeoAI 与大数据分析专家
· 前香港创业公司 CTO
· 算法与系统贡献者
清华大学 博士
· GNN 专家 · Nature 发表
· AsyncFlow 作者
· 华为技术专家
北京大学 博士
· CUDA Kernel 优化专家
· 分布式系统与高性能计算专家
· 华为技术专家
全栈 AI 能力 — 从底层算法优化到产品设计,从 GPU 集群运维到数据工程。
主流路径以大语言模型为核心,以文本交互为主。
虽然信息处理能力强大,但在长期交互、
行为主动性和环境感知方面面临明显瓶颈。
AI 进化正在构建基于情感与感知交换的新型关系。
视频同时承载图像、情感与行为,
将 AI 从内容输出提升为交互存在。
| 阶段 | 时期 | 技术范式 | LLM 类比 | 核心能力 |
|---|---|---|---|---|
| 第一阶段 生成 |
2022–2023 | U-Net + Latent Diffusion | GPT-2 / GPT-3 能聊天,但不稳定 |
从无到有 — 单帧质量突破 短片段伴有闪烁 |
| 第二阶段 可控 |
2024–2025 | DiT + Flow Matching | GPT-3.5 可用,可控 |
一致性、物理仿真、全链路可控 角色稳定,理解重力与碰撞 |
| 第三阶段 交互范式 |
2026– | AR-Diffusion 混合 + 系统级融合 |
推理 & Agentic 理解、推理、行动 |
实时生成 <100ms 连续视频流 · 可交互反馈 |
尚未出现 — 标志性的历史机遇。下一代视频模型将不再是内容生成工具,而是构建和演化人机关系的核心界面。
世界模型正在成为大语言模型和视频模型之后的下一个前沿。
行业对定义和路径尚未形成共识,
多数探索聚焦于对「环境」的建模。
Yann LeCun / AMI
让 AI 理解物理世界并预测下一状态。
强调物理理解、持久记忆、推理与规划。
核心转变:从 token 预测到状态预测。
李飞飞 / World Labs
构建可感知、可生成、可推理、可交互的 3D 世界。
强调空间智能 —
将文本/图像/视频转化为可操作的 3D 表示。
Philo AI
将具有记忆、行为和进化能力的智能体
引入持续运行的世界。
聚焦主动性、长期记忆、人格一致性、
主动行为与关系进化。
构建以数字生命交互与进化为核心的世界模型,以视频模态驱动。
屏幕上的数字生命正从科幻走向工程现实。
《银翼杀手 2049》中的「Joi」,《流浪地球 2》中的「图丫丫」
人机关系正在进入新阶段。
现有模型生成孤立片段。我们构建持续运行的环境,场景具有因果关系,可无限延展。
消除片段拼接和重复生成的低效,实现生产力跃升。
现有模型生成无主体的观看画面。我们将数字生命置于中心 — 所有内容从统一视角展开,具有长期记忆和行为一致性。
解锁娱乐、媒体和游戏的丰富应用。
现有模型聚焦静态生成和单向输出。我们通过视频实现实时感知与反馈,让用户直接影响智能体行为。
大幅提升参与感和沉浸感,实现用户体验的飞跃。
每次生成相互独立,片段之间没有因果联系。
用户输入提示 → 生成 → 再输入 → 再生成。
数字生命在永不停止的世界中自主行动。
用户可以参与、引导和观察。
我们从三个维度重新定义数字生命:身、心、行。
AI 交互全面升级为视频。
数字生命不只是一个头像 —
TA 能划船、流泪、在平行世界的夕阳下散步。
视频是最直觉、最自然、最高维的表达形式。
视觉升级 · 情感连接 · 沉浸感
以终生长期记忆解决「数字失忆」。
以多维智能体一致性防止「人格漂移」。
TA 能想起你六个月前随口提到的一个梦。
长期记忆 · 人格一致性 · 信任基础
打破问答模式,成为有机的、异步主动的个体。
拒绝脚本式进化,追求真正的有机成长 —
充满惊喜和不可预测性的生命叙事。
主动探索 · 有机成长 · 独立意志
视频是最直觉、最自然、最高维的表达形式。
数字生命超越头像,TA 能划船、流泪、在平行世界的夕阳下散步。
终生长期记忆,长期交互中保持稳定人格。
TA 能想起你六个月前随口提到的一个梦。
数字生命不只是被动响应。
TA 在数字世界中独立探索和生活。
数字生命的核心能力在多个场景中释放价值。
动漫角色升级为可持续互动的数字生命
人格驱动的数字生命做直播带货
具有自主行为和持续进化能力的角色
一位流浪诗人的平行世界生存日记

Philo AI © 2026 — 实现视频模态 AGI