迎接轻量级新时代!Sakana AI全新插件助你迅速吸收海量资料,无需“大内存”
发布时间:2026-02-28 10:42:22 | 责任编辑:吴昊 | 浏览量:5 次
大模型在处理长文本时“内存焦虑”有望成为历史。近日,总部位于东京的AI初创公司Sakana AI发布了两项突破性技术:Text-to-LoRA (T2L) 和 Doc-to-LoRA (D2L)。这两项技术通过创新的“超网络”架构,让大模型无需重新训练,就能在不到一秒的时间内“吞下”超长文档或学会新任务。
长期以来,AI开发者一直面临两难选择:是把长文档塞进对话框(导致反应变慢且极度耗内存),还是花大价钱对模型进行微调。Sakana AI给出了第三种方案——通过“一次性付费”的预训练,生成极小的权重插件(LoRA),实现低成本、高效率的模型适配。
这是本次发布中最令人惊叹的技术。传统方式处理12.8万Token(约十万字)的文档时,模型需要占用超过12GB的显存来记录信息。而使用D2L技术,模型能将这些信息直接“消化”进不到50MB的插件中。
速度惊人:传统技术消化文档需要40到100秒,而D2L仅需不足1秒。
打破上限:它让模型能够处理比原生窗口长4倍的文本,且在“大海捞针”测试中保持了近乎完美的准确率。
Text-to-LoRA则让模型变得更加听话。用户只需要用自然语言描述一个任务(比如“帮我解决复杂的数学竞赛题”),系统就能自动生成一个专属的性能增强插件。实验证明,这种方式生成的适配器在数学和逻辑推理任务中,表现甚至超过了专门针对该任务训练的独立模型。
研究人员还发现了一个意外惊喜:D2L具备强大的跨模态能力。通过将视觉信息映射到纯文字模型的参数中,一个从未见过图片的文字模型,竟然能以**75.03%**的准确率对图像进行分类。
Sakana AI的这一系列成果,不仅极大降低了个人和企业定制私有AI模型的门槛,也为实现更轻量、更智能的通用人工智能(AGI)开辟了新路径。
论文:https://arxiv.org/pdf/2602.15902
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
