蚂蚁集团首席技术官剖析大模型“幻觉”问题的核心:数据不足成为关键因素
发布时间:2025-05-19 10:25:27 | 责任编辑:张毅 | 浏览量:6 次
在近日举行的 OceanBase 开发者大会上,蚂蚁集团的首席技术官何征宇发表了关于人工智能(AI)发展的一番看法。他指出,数据是推动 AI 进步的基石,而数据的量和质量直接影响大模型的能力和表现。他强调,缺乏足够的数据将导致 AI 技术产生 “幻觉”,而这种现象在当前的技术环境中愈发明显。
何征宇表示,随着廉价互联网数据的逐渐枯竭,数据获取的成本将会大幅上升。他指出,除了大量的开放数据外,很多行业的专业数据不仅稀缺,且在流通上也面临许多障碍。更为复杂的是,多模态数据处理的难度和数据质量的评估也成为了 AI 发展的重要挑战。因此,未来企业的成功与否,将取决于如何更好地生成和应用数据。
他进一步透露,蚂蚁集团将致力于利用 OceanBase 平台在金融、医疗和生活等关键领域进行突破,并计划继续推动 OceanBase 的开源和开放战略,朝着通用人工智能(AGI)的梦想迈进。
在谈到自己的背景时,何征宇分享了他在技术领域的丰富经历。他于2012年获得佐治亚理工学院的计算机博士学位,并在谷歌工作了六年,期间创建并领导了开源项目 gVisor。2018年,他加入了蚂蚁集团,负责公司的技术基础设施建设,包括云原生化、绿色计算和机密计算等项目。
何征宇的发言不仅为业内提供了深刻的见解,也为未来的 AI 发展指明了方向。他的观点提醒我们,在追求技术创新的同时,必须重视数据的获取和应用,才能推动 AI 技术的真正进步。
在2025年5月17日的OceanBase第三届开发者大会上,蚂蚁集团CTO何征宇指出,大模型的“幻觉”问题根源在于数据短缺。他强调,数据是AI发展的基石,数据的边界决定了大模型的能力上限。当前,大模型面临四大数据相关挑战:
-
数据获取成本上升:廉价的互联网数据逐渐枯竭,导致数据获取成本大幅增加。
-
行业数据稀缺且流动困难:高质量的行业数据稀缺,且由于隐私和安全问题,流通受限。
-
多模态数据处理难度大:多模态数据(如文本、图像、音频等)需要更强的处理能力。
-
数据质量评估复杂:确保数据的准确性成为一大难题。
何征宇认为,未来企业的成功将取决于如何更好地生成和应用数据。蚂蚁集团计划通过支持OceanBase在金融、医疗、生活等核心场景的突破,继续推动其开源开放,以助力通用人工智能(AGI)的发展。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。