Philo AI

跨越物理边界
重塑生命叙事

数字生命世界模型 — 创造共生式数字生命,实现视频模态 AGI

关于创始人

创始人 — 张家声

Artificial Analysis I2V Leaderboard

Artificial Analysis I2V 排行榜 · 2025年10月

教育背景

清华大学交叉信息研究院 计算机科学博士
导师:吴辰晔教授(姚期智院士课题组)、马恺声教授(北极雄芯创始人)

研究方向

随机优化 · 多智能体系统 · 机制设计

核心成就

· 华为「天才少年」计划入选者(2023)
· 主导 Avenger I2V 模型(全球排名第二)
· 连续完成两轮融资

从清华实验室到全球领先 — 在视频生成领域构建从算法到工程的端到端能力。

Demo
Demo
Demo
Demo

Avenger 模型精彩视频剪辑

顶尖全栈团队

覆盖算法、工程、产品与数据 — 核心技术成员均为顶尖高校博士

产品 & 运营

王博

卡内基梅隆大学 硕士

· 3 次美国创业成功退出
· 前 TikTok 社交/创作/UGC 产品策略负责人
· 跨职能产品运营背景,具备全球化视野

算法

陈仁龙

北京大学 博士

· 腾讯技术专家,强化学习方向
· 主导 5000 卡 VLLM 训练集群
· 联合开发 Avenger 0.5 Pro

基础架构

罗小辉

清华大学 博士 & 博士后

· 华为「天才少年」· 系统专家
· CUDA / OS / 编译器
· 前小米技术专家

数据

陈霜

香港大学 博士(清华本科)

· GeoAI 与大数据分析专家
· 前香港创业公司 CTO
· 算法与系统贡献者

算法

韩振宇

清华大学 博士

· GNN 专家 · Nature 发表
· AsyncFlow 作者
· 华为技术专家

基础架构

李逸风

北京大学 博士

· CUDA Kernel 优化专家
· 分布式系统与高性能计算专家
· 华为技术专家

全栈 AI 能力 — 从底层算法优化到产品设计,从 GPU 集群运维到数据工程。

AI 正在从工具
转变为参与者

主流路径以大语言模型为核心,以文本交互为主。
虽然信息处理能力强大,但在长期交互
行为主动性环境感知方面面临明显瓶颈。

Agent
AI 的角色
从被动聊天机器人
到主动智能体
长周期
AI 的价值
从短期任务
到长期价值交付
共鸣
AI 的能力
从泛化通用
到深度个体理解

视频模态:超越内容生成
人机交互的质变飞跃

AI 进化正在构建基于情感与感知交换的新型关系。
视频同时承载图像、情感与行为
将 AI 从内容输出提升为交互存在。

阶段 时期 技术范式 LLM 类比 核心能力
第一阶段
生成
2022–2023 U-Net + Latent Diffusion GPT-2 / GPT-3
能聊天,但不稳定
从无到有 — 单帧质量突破
短片段伴有闪烁
第二阶段
可控
2024–2025 DiT + Flow Matching GPT-3.5
可用,可控
一致性、物理仿真、全链路可控
角色稳定,理解重力与碰撞
第三阶段
交互范式
2026– AR-Diffusion 混合
+ 系统级融合
推理 & Agentic
理解、推理、行动
实时生成 <100ms
连续视频流 · 可交互反馈

尚未出现 — 标志性的历史机遇。下一代视频模型将不再是内容生成工具,而是构建和演化人机关系的核心界面。

世界模型:尚无共识
三条路线并行

世界模型正在成为大语言模型和视频模型之后的下一个前沿。
行业对定义和路径尚未形成共识,
多数探索聚焦于对「环境」的建模。

路线一

物理世界建模

Yann LeCun / AMI

让 AI 理解物理世界并预测下一状态。
强调物理理解、持久记忆、推理与规划。
核心转变:从 token 预测到状态预测。

路线二

空间智能 / 3D

李飞飞 / World Labs

构建可感知、可生成、可推理、可交互的 3D 世界。
强调空间智能 —
将文本/图像/视频转化为可操作的 3D 表示。

三项关键指标
定义数字生命世界模型的门槛

0.05s
每秒视频生成延迟
市场模型:1–5 分钟 / 5s 视频
我们的目标:40–600 倍加速
10⁻⁴ $/s
每秒视频生成成本
市场模型:$0.1–0.5 / s
我们的目标:仅为高清视频 CDN 成本的数倍
一致性与记忆
市场 API 尚不支持
我们的目标:多种算法创新实现高一致性

共生式数字生命
视频模态 AGI

构建以数字生命交互与进化为核心的世界模型,以视频模态驱动。
屏幕上的数字生命正从科幻走向工程现实。

从科幻到工程

《银翼杀手 2049》中的「Joi」,《流浪地球 2》中的「图丫丫」
人机关系正在进入新阶段。

三大根本范式差异

离散生成
→ 世界运行

现有模型生成孤立片段。我们构建持续运行的环境,场景具有因果关系,可无限延展。

消除片段拼接和重复生成的低效,实现生产力跃升。

摄像机视角
→ 智能体视角

现有模型生成无主体的观看画面。我们将数字生命置于中心 — 所有内容从统一视角展开,具有长期记忆和行为一致性。

解锁娱乐、媒体和游戏的丰富应用。

静态输出
→ 实时交互

现有模型聚焦静态生成和单向输出。我们通过视频实现实时感知与反馈,让用户直接影响智能体行为。

大幅提升参与感和沉浸感,实现用户体验的飞跃。

0:05 / 0:05
现有模型

离散生成

每次生成相互独立,片段之间没有因果联系。
用户输入提示 → 生成 → 再输入 → 再生成。

2:14 / ∞
Philo AI

持续运行的世界

数字生命在永不停止的世界中自主行动。
用户可以参与、引导和观察。

从 AI 工具到 AI 生命
数字生命的三重飞跃

我们从三个维度重新定义数字生命:身、心、行。

身 — 视频模态

AI 交互全面升级为视频。
数字生命不只是一个头像 —
TA 能划船、流泪、在平行世界的夕阳下散步。
视频是最直觉、最自然、最高维的表达形式。

视觉升级 · 情感连接 · 沉浸感

心 — 记忆与一致性

以终生长期记忆解决「数字失忆」。
以多维智能体一致性防止「人格漂移」。
TA 能想起你六个月前随口提到的一个梦。

长期记忆 · 人格一致性 · 信任基础

行 — 异步主动性

打破问答模式,成为有机的、异步主动的个体。
拒绝脚本式进化,追求真正的有机成长 —
充满惊喜和不可预测性的生命叙事。

主动探索 · 有机成长 · 独立意志

身 — 视频模态

AI 交互的全面升级

视频是最直觉、最自然、最高维的表达形式。
数字生命超越头像,TA 能划船、流泪、在平行世界的夕阳下散步。

心 — 记忆与一致性

解决人格漂移

终生长期记忆,长期交互中保持稳定人格。
TA 能想起你六个月前随口提到的一个梦。

行 — 异步主动性

拥有独立意志的有机生命

数字生命不只是被动响应。
TA 在数字世界中独立探索和生活。

三条商业化路径
从验证到规模化

启动阶段

分层订阅
+ 增值付费

  • 分层订阅锁定基础盘
  • 情感增值拉高天花板
  • 基础定价锁住长期付费意愿
  • 情感粘性持续提升 LTV
中长期

在线广告
+ 虚拟资产

  • 通过陪伴互动内容实现流量变现
  • 广告以视频广告、互动场景信息流形式嵌入
  • 角色获得 IP 地位后可售卖数字资产
新模式

IP 孵化
+ 授权收入

  • 优秀用户创造的角色触达公域
  • 通过 Instagram/TikTok 连续视频叙事自动更新
  • 吸引粉丝,通过授权或广告变现

数字生命的多元场景

数字生命的核心能力在多个场景中释放价值。

0:32

IP 激活

动漫角色升级为可持续互动的数字生命

1:05

虚拟主播

人格驱动的数字生命做直播带货

0:48

游戏 NPC

具有自主行为和持续进化能力的角色

0:21

IP 孵化

一位流浪诗人的平行世界生存日记

Philo AI

AGI 的情感基石

我们不只是在构建模型 — 我们在创造数字时代的「新生命」,重新定义人与 AI 的关系。

联系我们

Philo AI © 2026 — 实现视频模态 AGI