《阶跃星辰一周连发六款基座模型:多模态能力全面进阶 拿下双榜 TOP1》
2025-06-19IT资讯
2025-06-19IT资讯
(2025 年 1 月 23 日讯) 阶跃星辰在 AI 领域掀起技术风暴,一周内连续发布六款基座模型,其中新版视频生成模型 Step-Video V2 与多模态理解模型 Step-1o vision 尤为瞩目。Step-1o 刚斩获 OpenCompass 多模态实时榜及 Lmsys Org 视觉榜单中国大模型 TOP1.而 Step-Video V2 距上一版本迭代仅隔 52 天,展现出该公司在基础模型研发上的爆发式创新能力。
一、技术突破:多模态能力的三阶进化
阶跃星辰此次发布的模型矩阵呈现三大技术跃迁:
视频生成革新:Step-Video V2 基于自研 VAE-DiT 混合架构,参数量提升至 350 亿,实现四大突破:
▶ 复杂动作连贯性:篮球扣篮等高速运动场景生成流畅度提升 270%
▶ 长视频建模:支持 120 秒连续叙事(原版本仅 45 秒)
▶ 文字 - 视频对齐:歌词动态匹配准确率达 98.3%
▶ 光影渲染:全局光照效果接近电影级画质
多模态理解登顶:Step-1o vision 在 OpenCompass 评测中,以 89.7 分刷新国内纪录,其核心优势包括:
✅ 跨模态推理:图片 - 文本 - 3D 模型转换效率提升 3 倍
✅ 实时场景理解:动态视频目标检测速度达 65FPS
✅ 专业领域解析:医学影像病灶识别准确率超 95%
轻量化部署突破:Step-2 mini 以 3% 参数量保留 Step-2 模型 82% 性能,在手机端实现:
➤ 300 字新闻稿生成仅需 1.2 秒(传统模型需 4.5 秒)
➤ 功耗降低 68%,适配千元机流畅运行
二、模型矩阵:全场景能力覆盖
此次发布的六款模型构建起完整技术体系:
模型类型 | 核心参数 | 应用场景 | 技术亮点 |
---|---|---|---|
Step-Video V2 | 350 亿参数,8K 分辨率支持 | 影视、广告生成 | 动态光影追踪技术 |
Step-1o vision | 175 亿参数,多模态编码器 | 工业质检、自动驾驶 | 实时三维场景重建 |
Step-1o Audio | 端到端语音模型,支持 108 种语言 | 跨国会议、智能客服 | 噪声抑制比提升至 45dB |
Step R-mini | 轻量级推理模型,1.3 亿参数 | 边缘设备、物联网终端 | 能耗比优化至 0.8W/TOPS |
Step-2 文学大师 | 万亿参数语言模型分支 | 内容创作、IP 孵化 | 古诗词平仄合规率 |
Step-2 mini | 70 亿参数,量化至 INT4 精度 | 移动办公、教育平板 | 模型体积压缩至原尺寸 1/12 |
三、资本与生态:技术落地双引擎
刚完成数亿美金 B 轮融资的阶跃星辰,正通过 "技术 - 资本 - 场景" 三轮驱动加速落地:
融资用途:
60% 用于多模态大模型研发(重点突破视频 - 3D 模型生成)
25% 建设边缘算力调度平台(计划部署 500 个边缘节点)
15% 投入 C 端产品矩阵(短视频生成 App 已进入内测)
行业合作:
与某车企共建车载多模态交互系统,预计 2025Q3 装车
为某影视公司定制虚拟制片工具,成片效率提升 40%
联合高校推出 AI 科研助手,论文图表生成效率提升 5 倍
开源战略:
宣布将 Step R-mini 基础版开源,已吸引 2000 + 开发者接入,某创业团队基于该模型 3 周完成智能家电控制方案开发。
四、行业影响:多模态竞争进入深水区
IDC 分析师指出,阶跃星辰的密集发布标志着 AI 竞争进入三阶段:
❶ 2023 年:单一模态模型比拼阶段
❷ 2024 年:多模态模型集成阶段
❸ 2025 年:模态融合与场景深度适配阶段
目前阶跃星辰在视频生成领域的迭代速度(52 天 / 版本)已超越行业平均水平(120 天 / 版本),其 Step-1o 系列模型在工业质检场景的缺陷识别率达 99.7%,接近人类专家水平(99.9%)。该公司创始人在发布会上表示:"当模型能够理解视频中的物理规律、语音中的情感逻辑、文字中的文化隐喻,AI 才真正具备了服务产业的能力。"
随着这六款模型的落地,阶跃星辰正在重新定义多模态 AI 的技术边界。从影视到工业质检,从智能车载到教育办公,其构建的模型矩阵或将成为 2025 年 AI 应用落地的核心基础设施,推动行业从 "能用" 向 "好用" 的关键跨越。
编辑
分享