赵丽虹 高级城市规划师
2022年底,ChatGPT的横空出世让千行百业看到通用人工智能的拐点。随后,GPT-4系列在高质量文本生成、推理分析方面表现出卓越能力,LLaMA拓展广泛应用生态,Sora视频生成惊艳亮相,通用大模型 、尤其是 Transformer 架构能力的快速提升给大家不断带来惊喜。
然而尽管通用大模型能力出色且进步飞快,但在面对特定行业或领域的问题时,仍存在相当的局限性。在AGI(通用人工智能)目标实现之前,我们仍需探讨大模型近期的行业应用模式问题。构建行业大模型、领域大模型是现实的选择。如果说通用大模型是完成了通识教育的高中生,我们希望让它再学习一些特定领域的知识和技能,成为该领域的本科生甚至研究生,为解决领域问题提供更加专业的精准的帮助。面向城市,我们甚至希望,发挥机器比人脑碾压级的存储与计算优势,解决那些人脑无法解决的复杂系统问题。通过构建城市大模型,也许能帮助我们解决城市问题、助力城市发展、辅助规划决策、提升治理效能。
城市大模型能做些什么?技术驱动下为城市治理带来什么变化?又产生什么问题?如何构建城市大模型?技术的迭代更新非常迅速,很多问题还看不到确定性的结论,但经过一年多的实践探索,还是有一些方向和趋势已经显露端倪。
下面哪个是你理解的行业大模型?
-
从零开始,用领域内的专业数据,从预训练开始,做大模型。
-
在通用大模型的基础上,学习行业特色数据与专业知识,即在大模型基础上经过行业知识精调,形成行业大模型。
-
基于基础大模型能力,进行应用开发,解决一些专业性问题。
目前,行业大模型还没有准确定义,上面这三种都会被叫做行业大模型。从一般用户的角度,如果只关心使用效果,也不用关心到底是哪一种方式做到的。但如果想多了解一点技术路线,或者关心自己的(或者行业的)数据资产与知识沉淀,那就需要区分是以上三种中的哪一种。
1. 纯纯型
从零开始,用领域内的专业数据,从预训练开始,做大模型。
想想如果能搞一个纯纯的根正苗红城市大模型,没有乱七八糟的数据噪声,它熟悉城市发展历史、了解产业经济的发展规律、掌握城市各方面的现状情况,最好还能理解不同主体的利益博弈,秉承以人民为中心的价值观......无论是赋能城市治理、公共服务、还是领导决策,都是极好的。
这在技术上并非没有可能性,但问题是成本太高而没有可行性。行业数据、算力成本、技术门槛都是问题。没有足够的数据就谈不上大。GPT-3的官方训练数据是753GB,LLaMA4828.2GB,文心一言亿级。换算成咱们最长的总规说明书,以10W字一份计算,1000GB就是500多亿份总规说明书。此外,高昂的算力成本,复杂的底层技术,都让从零训练行业模型的门槛高的摸不起,毫无性价比。
23年上半年,就是大模型最火爆的时候,有城市领导询问几个大厂:是否愿意为某个城市、或者政府政务专门训练一个大模型?得到的回答,当然是否定的。
目前看,除了如生物基因蛋白质分子结构、时序时空这些特殊模态的大模型外,从零构建一个行业大模型是没有必要的,也不符合大模型主要能力来自“预训练”的本质。
2. 精调型
在通用大模型的基础上,学习行业特色数据与专业知识,即在大模型基础上经过行业知识精调,形成行业大模型。
可能更符合多数人的认知。相对于开发一个全新的大模型,微调现有的通用大模型更为简单快捷,只需要高质量的行业数据即可。这个概念在上半年时候被广为宣传,以至于几乎绝大多数甲方客户都喜欢问:你们的行业大模型是用什么数据,怎么微调出来的,调前调后的效果有啥区别?
但考虑以下三方面因素后,这种行业大模型技术路线也有适用范围选择条件:数据知识、参数规模、基础模型。
(1)高质量的行业数据显然相当重要,它决定了要教给大模型什么样的行业知识。当然真正挖掘、整合和利用行业数据是件非常复杂的事。在城市领域,大概显性知识也就只有规划文本说明、政策文件、法规规范这么几类。当然,我们认为城市中最重要的共性知识是空间知识,通常适合通过多模态方式传递,这里暂时不提。城市规划设计中,“这个设计感觉不好”这种需要靠“悟”的方式来学习的经验和知识是无法被模型去学习的。所以,在对行业/领域知识进行梳理和理解后,就会发现,大模型能学的知识很有限,能做的也就很有限。通用人工智能还远没有那么通用,大概能理解这些的 AI 就是 AGI 了。
(2)参数规模与智能涌现。GPT3.5,文心一言、通义千问、GLM都是千亿以上参数规模。一般认为达到千亿参数(也有认为是更小规模,比如500-600亿)才出现“智能涌现”。面对城市复杂系统,智能涌现是我们非常需要的能力。而行业大模型通常基于百亿,或者更低参数规模的模型进行调优。因为只有这样,才能取得较好的调优效果、效率、性价比,以及私有化部署的可能。所以都是大模型没毛病,但只能做到形似而无法神似,难以达到我们对通用人工智能聪明程度的预期。
(3)基础模型能力与精调获得能力。有个常见的情况,就是费劲调了多轮,结果基础模型能力一升级,发现那些精调出来的能力被基础模型超越了。所以有人认为,调行业模型,不如等基础大模型能力升级。在基础模型能力还远没有看到边界的时候,调行业模型没有必要。还有种情况经常发生:一个任务能力通过精调提升后,其它能力大幅下降了。这实在有悖大模型的“通用”特长,也只能等待算法科学家来解决。
所以在深入行业大模型精调时,常常会产生“行业大模型”不存在的质疑。甚至有观点认为,不应该试图让大模型获得某种特殊的能力。
但面向特殊的行业领域,我们就是希望大模型在某些方面比能用大模型再“长”一些。这就引出了第三种行业大模型。
3. 应用型
基于基础大模型能力,进行应用开发,解决一些特定问题。
可能很多人的第一反应是这叫什么行业大模型,但可能真是现阶段最靠谱、也越来越成为主流形态了。关注的不是模型本身,而是具体要完成的任务。面向具体任务,利用大模型理解、记忆、生成、推理等基础能力,与其它工具、或者其它模型组合,来开发应用。
所谓特定问题,结合城市专业,可以分为知识的管理与生产、操作类问题两大类。知识的管理与生产,利用大模型检索问答、内容创作能力,解决规划设计过程中的创意过程、规范性问题。操作类问题如自动化绘图建模,利用大模型完成任务理解-指令生成-调起服务的思维链与动作链,提高操作类工作的效率。
对于知识的管理与生产,除了大模型,还需要建设行业知识库;对于操作类问题,重点在于系统接口的对接框架以及对现有接口的适大模型化改造。都挺麻烦的。这些在第三章中再做展开。此外,面向复杂场景,应用型与精调型也可以组合发挥作用。
回顾2023年,大模型经历了年初百模型大战“卷模型”、年中拿着行业数据“卷训练”、年底发现能落地见效还得“卷应用”三个阶段。这也恰好呼应了上述三种行业大模型。
技术在快速演进,认知在不断迭代。我们既期待大模型底层技术的进一步突破,也期待行业知识、领域知识、专家知识的数字化沉淀与智能化重构,更期待具体行业应用甚至超级App的出现。为需要更新的城市,需要刺激的经济带来些什么。
1. 如何定义城市大模型
2. 现有城市大模型应用场景
游戏故事1——斯坦福25小镇
2023年4月,斯坦福和谷歌的研究者成功构建“虚拟小镇”引爆AI圈。虚拟小镇里有25个AI智能体。这些生成式智能体有不同的身份,比如药店店主、大学教授和他至爱的妻子、学音乐的儿子、邻居夫妇。他们的行为会符合他们的身份。他们可以与环境交互,比如在咖啡馆、酒吧、公园、学校、宿舍、房屋和商店不同的场所中有适宜的行为。看到浴缸漏水会从客厅找到工具并尝试修复漏水问题。更厉害的是,他们出现了“社交行为涌现”,彼此间会互相传播信息,协作举办活动,比如举办情人节PARTY。(https://arxiv.org/pdf/2304.03442.pdf)
以前,无论在计算领域,还是在城市学、社会学领域,对于这种复杂系统、社会行为的模拟都是非常困难的。从元胞自动机CA到多智能体系统MAS,都只能模拟相对简单系统的问题。智能体需要认知自己的身份,要有记忆,有连贯性的行为,要和他人协作,加上极高的时空复杂度,使得这类问题通常不可计算。但是基于大语言模型,这种随着时间推移而展开的动态复杂互动模拟实现了。
相比上文中接地气的现状应用,这可能才是更符合我们所预期的城市领域大模型价值。
1. 底层算法:直面“涌现”
可计算问题,是可以用算法或程序来解决的问题。然而现实世界中的绝大多数问题不是可计算问题,无法通过计算来求解。
城市问题,有多少可以抽象为计算模型,用计算解决?在规划师直觉里,我们可能会认为几乎没有。在具体的垂直领域可能部分存在,比如交通、能源资源供应等。但城市作为一个复杂系统,所面临的涌现性问题,即多个子系统耦合后产生的问题,是很难抽象成数学问题的。
随着算法的改进、数据量的增长、计算能力的提升,可计算问题的范围已经并还在快速扩大。斯坦福25人小镇的例子,让我们看到大模型技术带来的全新可能,对可计算问题边界的大幅拓展。
大模型的神奇在于“智能涌现”。过去的人工智能是教什么学什么,没教过的就不会。而当参数量大到一定规模后,忽然发现没有教过的东西突然无师自通了。无论是城市,还是大模型,“涌现”是作为复杂系统的基本属性之一。用大模型的智能涌现,去应对城市复杂系统的问题涌现,听起来是不是很美妙?
其实,全世界对大模型的理论工作原理很多时候还是一头雾水。所谓“涌现”,不过是还没有搞清楚其中的机理机制,解释不清楚,便称之为“涌现”。但很多时候我们希望“可解释”,无论是城市问题的研究,还是大模型工作原理的研究都是这样。
然而,另一个角度,无论是做城市设计还是做规划决策,其实都不是在追求唯一正确的解,而往往只是提出一个相对平衡合理的方案,成为讨论和共识的平台。在这个意义上,大模型的能力十分匹配:通过人机协同完成对复杂系统的模拟和推演,可以实现更高效的决策。但需要再次强调,不要试图让大模型追求“唯一正确解”。
2. 应用架构:AI Agent和RAG
(1)AI Agent
AI Agent是目前业内关注度最高的大模型应用架构。吴恩达认为,如果你在期待 GPT-5 等更好的大模型,其实你可以用 Agent 得到类似的更好的结果。AI Agent以大语言模型为大脑驱动,具有自主理解、感知、规划、记忆和调用工具的能力。其应用方向大致分为自动化智能体和拟人智能体两类:
自动化智能体,旨在实现复杂流程自动化。当给定智能体一个目标时,它们能自行创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务,并不断重复这个过程,直到完成目标。比如告诉机器:设计一个特定尺寸的卧室,里面有什么功能、什么家具。机器可以基于对任务要求的理解,自动的生成指令,调用画图软件,并自主操作,画出设计图纸。自动化智能体可能由此带来软件行业交互方式的变革。近期看来,其难点除了大模型能力,还在于系统接口的对接框架以及对现有接口的适大模型化改造。
拟人化智能体,旨在模拟人的情感和人际交互,通常对生成准确度要求不高。大模型的不确定性在这里成为优势,可以实现多样性的模拟。在多智能体环境中,还可能涌现出超越原设计的场景和能力。拟人化智能体通过提供较高情绪价值的陪伴,正在成为新的精神消费品。而在让城市研究兴奋的社会模拟、城市模拟领域,虽然斯坦福25人小镇表现惊艳,但用于严谨的规划分析,甚至是政策决策支撑,还没有看到具有可行性的深入研究。
(2)RAG
如果说AI Agent还显得有些遥远,那RAG架构则是短期看来非常现实的方式。
RAG,检索增强生成(Retrieval Augmented Generation)。简单说就是通过外挂知识库,额外给大模型一些专门的领域知识,大模型从中检索正确的答案。类似于给模型出一道阅读理解题,让它先阅读给定材料,然后回答问题。这种方式显然比直接做问答题靠谱许多,可以有效解决大模型的幻觉、知识实时性、数据安全、训练时间长、需要高算力等问题。
上文中提到的政务服务场景,即是基于RAG架构。对于更广义的城市领域,我们可以通过梳理构建子领域的知识库,实现知识的管理和生产。在这里,相比于大模型本身,专业的知识库可能更为关键。在金融、法律、医疗、建筑等领域,许多行业头部企业已经在投入行业知识库的建设,也成为沉淀行业/领域知识资产,挖掘数据价值的新手段。
城市领域知识具有复杂度高、长尾碎片知识多、常识性强等特点。综合第一章中对于精调型行业大模型的讨论,我们对于哪些知识适合外挂,哪些知识适合基础模型内化,既缺少认知,也缺少尝试,更不用提如何将领域知识结构化。而这,极有可能是一个行业与大模型结合的起点。换句话说,是大模型时代,一个行业能够持续迭代更新的立足点。
3. 数据知识:顶层设计与行业协同
知识或者说数据,是城市大模型的关键。而在现实中,城市又会分解成产业经济、建筑规划、交通市政、城管、应急等各个子系统,各子系统都存在建设行业大模型的需求,而其共同的空间属性,又会最终将这些大模型进一步整合。
各行业独特的法规、规范、标准等,是大模型行业应用的共性基础,涉及版权商用问题,需要各行业主管部门牵头进行顶层设计和统筹规划,以确保行业共性知识库的合规性,并推动建立一个可扩展、可协同的行业大模型技术架构。这种架构应当促进产业链各环节之间的有效沟通和协作,使得各环节能够独立构建和应用其领域模型和企业模型,同时实现跨领域的协同和整合,从而提升整个行业的竞争力和创新能力。在城市领域,由于涉及大量行业的范式和工作流变革,这种统筹尤为必要。
4. 成本效率:缺少性价比如何配得起
一年多以来,各行各业对大模型热情高涨。聊过的需求很多,落地的需求很少。一方面是因为需求方对大模型技术的理解比较少,提出的需要比较“科幻”,另一方面,是出于经济性的考虑,绝大部分场景难以构建商业闭环。有技术实现方案,但没有性价比。尽管我们说城市大模型就是应用于市场失灵的公共服务与公共管理领域的大模型,商业变现不是第一要务,但性价比总归是不能太离谱。
其实不止是行业大模型,成本,是目前使用LLM模型应用都无法绕过的问题。从训练的角度,去年我们在某项目中,仅30MB的文本数据,在百亿参数模型上一次训练的成本接近万元。且训练效果在训前并不可预知。可能经过几轮迭代训练,仍达不到预期。尽管这个成本已经并还在下降,但依然还是贵的。
从应用开发的角度,按照输入和输出token数量收费方式,过于复杂的任务导致Token过量消耗。一个复杂任务一晚上跑掉一栋别墅的钱不是玩笑。
模型的部署与服务也是一大笔钱。虽然从千亿参数到百亿参数,这个费用可以有数量级的下降,但由于效果价值不易评估,也很难看到商业闭环。
更宏观的考虑人工智能的能源成本,就更算不过来了。上文中的斯坦福25人小镇这类案例,从成本,效率等角度上来说,都只存在于实验室中,没有落地的可能性。
人类大脑有100多亿个神经元。大模型参数在千亿规模,可以类比千亿个人工神经元。目前,人类神经元的协同效率还是远高于大模型的,对于大部分专业性的任务,短期内还是人更靠谱。
只有在任务的通用性足够强,可以代替足够多人,或者对计算量、计算速度等需求超越人类极限的情况下,大模型才有性价比。
5. 从大语言模型到跨模态
本文中所指大模型均是大语言模型,没有涉及多模态。多模态是大模型未来的重要方向早已是业内共识,但它到来的如此之快,还是超出了几乎所有人的预期。从通用大模型标配的文生图,到Sora突破了文生视频,在 Transformer框架下不断 Scaling up,涌现出越来越丰富的认知能力。
城市领域相关学科知识天然就是多模态的。规划、建筑、景观等设计和工程都是以文本、图纸为基础描述空间形态,交通、市政等领域还会有更丰富的特殊模态数据。
Transformer可以通过文字学习,承载历史文化、生活经验、地域特征等隐性空间知识,以及法规、规范等结构化知识;而Diffusion(扩散)模型则通过大量设计作品的学习,可以形成特定的设计风格,并进行基于图像甚至三维的创作。Sora 让我们看到了视频生成技术中可以形成高度的三维一致性,也就是可以通过类似方法直接生成三维模型。
最终,当大模型对以语言为表征的社会空间,以及以三维空间为表征的物理空间,具备了理解与创造的能力,并将它们连接在一起,便有机会真正理解并创造未来城市。
游戏故事2——AI智能体Voyager称霸Minecraft
还是以一个游戏故事作为结尾吧。
这同样是23年初的一个发布:在minecraft我的世界的游戏里,一个名为Voyager,由大语言模型驱动、可以终身学习的AI智能体,利用GPT-4不停地探索世界。它不断的开发越来越复杂的技能,并始终能在没有人工干预的情况下自驱的进行新的发现。
它通过自主学习,掌握了挖掘、建房屋、收集、打猎这些基本的生存技能,还通过自我驱动,不断探索着这个神奇的世界,去到不同的城市,路过一片片海洋,一座座金字塔,它甚至还会自己搭建传送门。它会扩充自己的物品和装备,会配备不同等级的盔甲,会用栅栏圈养动物。在不同的环境里,它会给自己提出适当的任务,如果发现自己是在沙漠而不是森林中,就会在学习收集铁之前学习收集沙子和仙人掌。基于环境反馈来完善技能,并将掌握的技能记入记忆。
由此展开,我们希望有个AI,我们给他设一个任务:“对城市不断改良与优化,城市明天更美好”。它便会根据当前的技术水平和城市状态提出适当的任务,相当于做城市体检和城市规划;然后基于环境反馈来完善策略,将掌握的策略与反馈记入记忆,并在类似情况下重复使用,相当于落地实施,并在实施过程中不断的深化对城市的认知,动态的修正规划和策略;因为城市的改良是没有最好只有更好的,所以它会持续探索城市:以自我驱动的方式寻找新的任务,让城市明天更美好。
原文始发于微信公众号(腾讯研究院):万字长文剖析城市大模型:认知、应用、展望