首页 > 快讯 > 全新Ollama多模态AI引擎亮相，推理能力大幅提升

全新Ollama多模态AI引擎亮相，推理能力大幅提升

发布时间：2025-05-19 10:32:20 | 责任编辑：吴昊 | 浏览量：77 次

《全新Ollama多模态AI引擎亮相，推理能力大幅提升》相关软件官网

前不久，Ollama 宣布推出一款全新的多模态 AI 引擎，这款引擎的研发是独立于原有的 llama.cpp 框架进行的，标志着公司在人工智能领域迈出了重要一步。这一引擎是基于 Golang 编程语言开发，旨在大幅提高本地推理的精度，同时增强大型图像处理的能力。
新引擎的亮点在于其引入了图像处理元数据、KVCache 优化及图像缓存功能。这些创新使得在内存管理和资源利用效率上都取得了突破，确保 AI 模型在运行时更加高效。这对于需要处理大量数据的复杂模型，如 Llama4Scout，尤为重要，能够在更短的时间内提供更精准的结果。
此外，新引擎还支持分块注意力机制和2D 旋转嵌入等先进技术。这些功能使得引擎能够灵活应对不同类型的数据输入，无论是图像还是文本，都能在处理时保持高效率与高准确度。Ollama 团队表示，这种灵活性是他们开发这款引擎时的核心目标之一，旨在为用户提供更强大的 AI 应用能力。
Ollama 的这一举措不仅推动了本地 AI 推理的性能，还使得大规模图像处理变得更加高效，为开发者和研究者打开了新的可能性。随着技术的不断进步，Ollama 的多模态 AI 引擎将在未来的应用中扮演越来越重要的角色，期待它在实际应用中展现出更大的潜力。

Ollama近期推出了全新的自研多模态AI引擎，这一创新成果标志着Ollama在技术上实现了对llama.cpp框架的直接依赖的摆脱。新引擎基于Golang编程语言独立开发，未直接借鉴llama.cpp的C++实现。

该引擎在本地推理性能上实现了显著提升，特别是在处理大型图像并生成大量token时表现突出。Ollama通过引入图像处理附加元数据、优化批量处理和位置数据管理，有效避免了图像分割错误导致的输出质量下降问题。此外，新引擎还采用了KVCache优化技术，进一步加速了Transformer模型的推理速度。在内存管理方面，新引擎新增了图像缓存功能，确保图像处理后的数据可以重复使用，从而提高了资源利用效率。

新引擎还支持分块注意力机制（chunked attention）和2D旋转嵌入（2D rotary embedding）等先进技术，能够灵活应对不同类型的数据输入，无论是图像还是文本，都能保持高效且准确的处理能力。Ollama还联合了NVIDIA、AMD、Qualcomm、Intel和Microsoft等硬件巨头，通过精准检测硬件元数据，优化内存估算。

Ollama的这一全新多模态AI引擎不仅提升了本地推理性能，还为未来支持更长的上下文长度、复杂推理过程及工具调用流式响应奠定了基础。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。