[AI每日快讯·20241211]OpenAI Sora 正式上线!多项创作编辑功能,仍存在明显不足
发布时间:2024-12-11 00:11:36 · 责任编辑:字母汇 · 浏览量:68 次
一、 OpenAI Sora 正式上线!多项创作编辑功能,仍存在明显不足
1. OpenAI发布的Sora视频生成工具因热度过高导致网站崩溃,用户注册暂时停止;
2. Sora拥有多个功能如Re-cut、Remix、Storyboard等,提升创作效率和编辑能力;
3. 产品仍存物理模拟和文字生成问题,在风景和动画风格处理上表现优秀,有显著进步。
https://mp.weixin.qq.com/s/91pFS1uzyHsYHUGeZYb-vw
二、 智源开源无标注视频学习3D模型See3D,See Video, Get 3D
1. 智源推出See3D模型,通过视频中的视觉线索生成3D图像,无需相机标注;
2. See3D支持从单视图、稀疏视图到3D生成,并可进行3D编辑与高斯渲染;
3. 该模型依托大规模无标注互联网视频数据,具有扩展性、相机可控性和几何一致性,推动3D创作应用发展。
https://mp.weixin.qq.com/s/tP_YOkL6kAdeoHf-44Ls5Q
三、 DeepSeek V2 系列收官,Post-Training 全面提升,上线联网搜索
1. 发布 DeepSeek V2.5 最终版微调模型,为 V2 系列的最后更新;
2. 模型通过 Post-Training 提升了多领域能力,包括数学、代码等,并优化了文件上传功能;
3. 模型权重已开源,联网搜索已上线官网,可生成个性化、多样的搜索结果。
https://mp.weixin.qq.com/s/WOdKBAcJtBqyhwvzupKS2g
四、 首个免费多模态大模型API,GLM-4V-Flash上线智谱开放平台
1. GLM-4V-Flash提供免费的多模态大模型API,提供图像描述生成、图像分类等功能;
2. 支持26种语言,广泛应用于社交媒体、教育、医疗等行业,显著提高工作效率;
3. 通过低成本开放,降低开发者门槛,希望推动大模型技术在各领域的普及与创新。
https://mp.weixin.qq.com/s/ia-gTu6GIIqqK87MFNH8FQ
五、 上海 AI 实验室发布了 InternVL2.5 系列、最新开源多模态模型
1. InternVL 2.5系列开源多模态模型,首次在MMMU基准测试中得分超70,领先多个闭源商业模型;
2. 提供1B到78B多种规模,支持图像识别、文档理解和多语言任务,提升复杂多模态任务的理解能力;
3. 通过数据质量优化和高效的训练策略,减少训练成本并大幅提升模型性能,尤其在视觉编码和推理任务上表现优异。
https://mp.weixin.qq.com/s/8DcDA9pLUPZ1m5XS0ixN7Q
六、 腾讯云AI代码助手上线,依托混元大模型轻松搞定代码工作
1. 腾讯云 AI 代码助手通过理解代码上下文和程序员编码风格,提供精准的代码补全,显著提升编码效率;
2. 它支持多种开发场景,包括正则表达式生成、复杂代码解读和快速接口适配,帮助开发者快速完成任务;
3. 基于腾讯自主研发的混元大模型,AI助手能够深入理解工程全局,并为开发者提供个性化、精准的编码支持。
https://mp.weixin.qq.com/s/dGjlbXuCrG9qHEu7Eudmxg
七、 开源「后训练」全流程!AI2发布高质量Tülu 3系列开源模型
1. AI2发布的Tülu 3系列开源模型,在后训练技术方面取得突破,性能提升显著;
2. Tülu 3通过多轮训练、数据混合和新算法(如RLVR)优化,提升了模型的知识召回、推理、数学等核心技能;
3. 开放了完整的训练数据、代码和评估框架,推动了开源后训练技术的发展,缩小了与闭源模型之间的差距。
https://mp.weixin.qq.com/s/hGjJ8EPHMYkiyHIlRh2ysg
八、 AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒
1. Adobe与MIT合作推出CausVid,突破传统视频生成延迟,实现边生成边播放,首帧延迟仅1.3秒;
2. 采用蒸馏预训练的双向扩散模型和自回归生成模型,生成速度提高至9.4帧/秒,质量超越现有主流方法;
3. CausVid支持实时视频风格转换、交互式剧情生成等应用,且无需额外训练即可适应多种场景。