《阶跃星辰一周连发六款基座模型：多模态能力全面进阶拿下双榜 TOP1》

2025-06-19IT资讯

　　(2025 年 1 月 23 日讯) 阶跃星辰在 AI 领域掀起技术风暴，一周内连续发布六款基座模型，其中新版视频生成模型 Step-Video V2 与多模态理解模型 Step-1o vision 尤为瞩目。Step-1o 刚斩获 OpenCompass 多模态实时榜及 Lmsys Org 视觉榜单中国大模型 TOP1.而 Step-Video V2 距上一版本迭代仅隔 52 天，展现出该公司在基础模型研发上的爆发式创新能力。

　　一、技术突破：多模态能力的三阶进化

　　阶跃星辰此次发布的模型矩阵呈现三大技术跃迁：

　　视频生成革新：Step-Video V2 基于自研 VAE-DiT 混合架构，参数量提升至 350 亿，实现四大突破：

　　▶ 复杂动作连贯性：篮球扣篮等高速运动场景生成流畅度提升 270%

　　▶ 长视频建模：支持 120 秒连续叙事(原版本仅 45 秒)

　　▶ 文字 - 视频对齐：歌词动态匹配准确率达 98.3%

　　▶ 光影渲染：全局光照效果接近电影级画质

　　多模态理解登顶：Step-1o vision 在 OpenCompass 评测中，以 89.7 分刷新国内纪录，其核心优势包括：

　　✅ 跨模态推理：图片 - 文本 - 3D 模型转换效率提升 3 倍

　　✅ 实时场景理解：动态视频目标检测速度达 65FPS

　　✅ 专业领域解析：医学影像病灶识别准确率超 95%

　　轻量化部署突破：Step-2 mini 以 3% 参数量保留 Step-2 模型 82% 性能，在手机端实现：

　　➤ 300 字新闻稿生成仅需 1.2 秒(传统模型需 4.5 秒)

　　➤ 功耗降低 68%，适配千元机流畅运行

　　二、模型矩阵：全场景能力覆盖

　　此次发布的六款模型构建起完整技术体系：

模型类型	核心参数	应用场景	技术亮点
Step-Video V2	350 亿参数，8K 分辨率支持	影视、广告生成	动态光影追踪技术
Step-1o vision	175 亿参数，多模态编码器	工业质检、自动驾驶	实时三维场景重建
Step-1o Audio	端到端语音模型，支持 108 种语言	跨国会议、智能客服	噪声抑制比提升至 45dB
Step R-mini	轻量级推理模型，1.3 亿参数	边缘设备、物联网终端	能耗比优化至 0.8W/TOPS
Step-2 文学大师	万亿参数语言模型分支	内容创作、IP 孵化	古诗词平仄合规率
Step-2 mini	70 亿参数，量化至 INT4 精度	移动办公、教育平板	模型体积压缩至原尺寸 1/12

　　三、资本与生态：技术落地双引擎

　　刚完成数亿美金 B 轮融资的阶跃星辰，正通过 "技术 - 资本 - 场景" 三轮驱动加速落地：

　　融资用途：

　　60% 用于多模态大模型研发(重点突破视频 - 3D 模型生成)

　　25% 建设边缘算力调度平台(计划部署 500 个边缘节点)

　　15% 投入 C 端产品矩阵(短视频生成 App 已进入内测)

　　行业合作：

　　与某车企共建车载多模态交互系统，预计 2025Q3 装车

　　为某影视公司定制虚拟制片工具，成片效率提升 40%

　　联合高校推出 AI 科研助手，论文图表生成效率提升 5 倍

　　开源战略：

　　宣布将 Step R-mini 基础版开源，已吸引 2000 + 开发者接入，某创业团队基于该模型 3 周完成智能家电控制方案开发。

　　四、行业影响：多模态竞争进入深水区

　　IDC 分析师指出，阶跃星辰的密集发布标志着 AI 竞争进入三阶段：

　　❶ 2023 年：单一模态模型比拼阶段

　　❷ 2024 年：多模态模型集成阶段

　　❸ 2025 年：模态融合与场景深度适配阶段

　　目前阶跃星辰在视频生成领域的迭代速度(52 天 / 版本)已超越行业平均水平(120 天 / 版本)，其 Step-1o 系列模型在工业质检场景的缺陷识别率达 99.7%，接近人类专家水平(99.9%)。该公司创始人在发布会上表示："当模型能够理解视频中的物理规律、语音中的情感逻辑、文字中的文化隐喻，AI 才真正具备了服务产业的能力。"

　　随着这六款模型的落地，阶跃星辰正在重新定义多模态 AI 的技术边界。从影视到工业质检，从智能车载到教育办公，其构建的模型矩阵或将成为 2025 年 AI 应用落地的核心基础设施，推动行业从 "能用" 向 "好用" 的关键跨越。

　　编辑