Ad image
Ad image

最近更新

VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架

VideoJAM是什么 VideoJAM是Meta推出的,用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信息,在推理阶段基于模型自身的运动预测作为动态引导信号,生成更连贯的运动…

预计阅读时间: 15

FantasyID – 阿里联合北邮大学推出的身份保持视频生成框架

FantasyID是什么 FantasyID 是阿里巴巴集团和北京邮电大学推出新型的身份保持视频生成(IPT2V)框架,…

AutoRAG – 中科院开源的自主迭代检索模型

AutoRAG是什么 AutoRAG是中国科学院计算技术研究所(ICT/CAS)、中国科学院的人工智能安全重点实验室及中…

AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架

AnyCharV是什么 AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架…

ToddlerBot – 斯坦福大学开源的机器学习与人形机器人平台

ToddlerBot是什么 ToddlerBot是斯坦福大学开源的用在运动操作的开源机器学习与人形机器人平台,为高效收集…

Step1X-3D – 阶跃星辰联合LightIllusions开源的3D资产生成框架

Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入,如文本和语义标签,基于低秩自适应(LoRA)微调实现灵活的几何控制。Step1X-3D 推动了 3D…

预计阅读时间: 13

Janus-Pro – DeepSeek 开源的统一多模态模型

Janus-Pro是什么 Janus-Pro是 DeepSeek 推出的开源AI模型,支持图像理解和图像生成,提供 1B…

Step-2 mini – 阶跃星辰推出的轻量级极速大模型

Step-2 mini是什么 Step-2 mini 是阶跃星辰推出的轻量级极速大模型,基于新一代自研 Attentio…

MinMo – 阿里通义实验室推出的多模态语音交互大模型

MinMo是什么 MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型,专注于实现无缝语音交互。M…

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型

GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的…

SigStyle – 吉大联合 Adobe 等机构推出的风格迁移框架

SigStyle是什么 SigStyle 是吉林大学、南京大学智能科学与技术学院及Adobe推出的新型签名风格迁移框架,…

MarS – 微软亚洲研究院开源的金融市场模拟预测引擎

MarS是什么 MARS(Market Simulation)是微软亚洲研究院推出的金融市场模拟预测引擎,基于生成型基础…