人工智能大模型,作为 “大数据 + 大算力 + 强算法” 的结晶,正以其强大的实力重塑着各个领域。它的参数规模巨大,例如 OpenAI 的 GPT-3 就具有 1750 亿个参数。这意味着它可以从海量的数据中找到更多的模式和趋势,从而具有更高的预测精度。
训练数据规模大也是其显著特点之一。像微软 Azure 为 ChatGPT 提供了海量数据支持,使其能够在自然语言交互和多场景内容生成方面表现出色。同时,大模型对算力的消耗需求极大。由于其参数量巨大,处理复杂图像或其他数据时,需要大量计算资源,往往需要显卡等高性能的处理器支持。
人工智能大模型能够适应一系列任务,无论是自然语言处理、计算机视觉,还是声音和音频处理等领域,都能发挥重要作用。在自然语言处理方面,它可以进行语义理解、翻译和对话等任务;在计算机视觉领域,可用于图像分类、对象检测和分割等;在声音和音频处理方面,能实现语音识别、语音合成和音频分类等。总之,人工智能大模型以其独特的特点,为各行业的发展带来了新的机遇和挑战。
人工智能大模型现状
(一)国内现状
大模型数量众多,中国 10 亿参数规模以上的大模型数量已超 100 个。
据相关数据显示,截至 2024 年,中国在人工智能大模型领域呈现出 “百模大战” 的激烈竞争态势。众多企业纷纷投入到大模型的研发中,为中国人工智能产业的发展注入了强大动力。
国产大模型取得长足进步,大量高质量模型百花齐放,如智源研究院推出多个新成果。
智源研究院在语言、多模态、具身、生物计算大模型等方面不断取得新进展。例如,与中国电信人工智能研究院联合研发并推出全球首个低碳单体稠密万亿语言模型;联合领视智远研发了全球首个智能心脏超声机器人,实现了全球首例真人身上的自主心脏超声扫查等。这些成果充分展示了国产大模型的创新能力和发展潜力。
北京在人工智能企业数量、数据要素资源、产业链等方面走在全国前列,国家网信办已备案大模型数量位居全国第一。
北京作为中国的科技创新中心,在人工智能领域表现突出。上半年,北京累计上线大模型 71 款,占全国总量超四成。北京拥有众多顶尖高校和研究机构,为 AI 发展提供了丰富的人才储备。同时,北京的 AI 企业数量多且科创能力更强,在全国 2200 家 AI 骨干企业中,北京企业数量占比为 28.09%,位居全国第一。此外,北京在算力规模指数上也位列全国第一,现已拥有大模型创新团队 122 家,约占全国的一半,大模型数量居全国首位。
(二)国际现状
2023 年,产业界发布了大量引人注目的机器学习模型,美国是顶级人工智能大模型的主要来源国。
2023 年,产业界在这一年内发布了 51 个引人注目的机器学习模型,而学术界仅仅贡献了 15 个。此外,产业界与学术界的合作也带来了 21 个著名的模型,这一数字创下了新高。其中,美国机构发布了 61 个著名的人工智能模型,远超欧盟的 21 个和中国的 15 个。美国依旧是人工智能投资的首选之地,2023 年美国人工智能领域的私人投资总额达到 672 亿美元,几乎是中国的 9 倍。
前沿大模型变得更加昂贵,如 OpenAI 的 GPT-4 和谷歌的 Gemini Ultra 训练成本高昂。
《2024 年人工智能指数报告》显示,OpenAI 的 GPT-4 等前沿模型系统的训练成本预估在 7800 万美元,而谷歌的 Gemini Ultra 的计算成本花费预估为 1.91 亿美元。相比之下,几年前发布的一些最先进的模型,训练成本要低得多。高昂的训练成本意味着大语言模型在商业化方面存在阻碍,同时也可能对小公司和研究机构构成进入壁垒。
人工智能大模型的缺陷与挑战
(一)四大固有缺陷
过度消耗数据和算力
大模型的参数量已达到万亿级别,训练数据规模和算力消耗与参数规模成正比。以目前的技术水平,训练一个大规模的人工智能大模型需要消耗大量的数据和算力资源。例如,有业界技术团队测算,若要对一个 5000 亿参数规模的单体大模型进行充分训练,所需算力基础设施约在 10 亿美元规模,每年消耗的电费在 5.3 亿元人民币。这对于任何机构或企业来说都是巨大的负担。
灾难性遗忘
在新任务上训练会损害之前任务的性能;在问题求解阶段,无法记住处理过的数据或场景。比如在无人驾驶中,人脑对路况有记忆,但自动驾驶每次都要重新计算,并为此消耗了大量能量。这种灾难性遗忘使得大模型在实际应用中面临很大的挑战,尤其是在需要连续处理多个任务的场景中。
黑盒模型逻辑推理能力弱。
大模型缺乏 “分而治之” 能力,在处理需要逻辑、数值推理等复杂问题时表现不佳,无法举一反三、触类旁通。以 GPT4 求解算术运算题的实例为例,对于在 1381 和 1453 之间选两个随机数相乘的结果给出了错误答案,被指出错误后,无法定位是语料,还是训练等原因,更无从修正。
大模型不知道自己错了,也不知道为啥错,更做不到知错就改。
大模型作为一个黑盒模型,其输出结果往往基于概率选择,很难保证百分百正确。当出现错误时,大模型无法自我诊断错误原因,也无法进行有效的修正。这在一些对准确性要求较高的领域,如金融、医疗等,可能会带来严重的后果。
(二)其他挑战
风险问题,如引发认知混乱、伦理道德问题等。
人工智能大模型存在泄露个人信息、敏感数据的风险。大模型的运行需要大量的数据,这些数据中可能包含用户的个人信息、公司的商业机密甚至政府的敏感数据等。这些个人信息、敏感数据一旦遭到泄露并被恶意利用,将会严重威胁公共安全。同时,大模型潜藏伦理风险,人类天然的 “科技崇拜” 促使其容易对大模型的运算结果产生高度信赖,如果大模型的算法和数据存在问题,就会产生错误的判断和推荐,形成 “错误权威”,从而误导大众。
成本问题,千亿级别参数、动辄以月来计算的训练周期对应巨大的存储成本。
大模型的训练需要大量的计算资源和存储资源,这对应着巨大的成本。例如,前沿大模型变得更加昂贵,OpenAI 的 GPT-4 和谷歌的 Gemini Ultra 训练成本高昂。《2024 年人工智能指数报告》显示,OpenAI 的 GPT-4 等前沿模型系统的训练成本预估在 7800 万美元,而谷歌的 Gemini Ultra 的计算成本花费预估为 1.91 亿美元。
计算资源需求巨大、数据质量和标注问题、模型可解释性和可靠性问题等。
大模型对计算资源的需求巨大,需要大量的显卡等高性能处理器支持。同时,数据质量和标注问题也影响着大模型的性能。如果数据质量不高或标注不准确,大模型的输出结果可能会出现偏差。此外,模型可解释性和可靠性问题也是大模型面临的挑战之一。大模型作为一个黑盒模型,其可解释性较差,当出现错误时,很难确定错误原因。同时,大模型的可靠性也有待提高,在一些关键领域的应用中,需要更高的可靠性保证。
人工智能大模型的应用领域
(一)医疗领域
人工智能大模型在医疗领域的应用正不断拓展和深化。在疾病诊断方面,大模型通过分析海量的医疗数据,包括病历、影像报告等,能够辅助医生进行更精准的疾病诊断。例如,百度灵医大模型和医联推出的 MedGPT 大模型,收集大量医学报告样本参与训练,实现了大语言模型的生成和推理能力与医学专业知识的紧密结合,为医生提供更准确的诊断结果参考。
在治疗方案制定上,虽然目前大模型主要用于辅助疾病诊断,不参与治疗方案的制定,但未来有望通过对患者病情的全面分析,为医生提供个性化的治疗建议。此外,大模型在药物研发领域也发挥着重要作用。晶泰科技的 XpeedPlay 平台利用大模型技术超高速生成苗头抗体,智源研究院研发的全原子生物分子模型 OpenComplex 2 能有效预测蛋白质等复合物,腾讯 “云深”(iDrug)平台也具备了小分子药物与大分子药物的加速发现能力,这些都大大提高了药物研发的效率。
(二)金融领域
在金融领域,人工智能大模型可以进行更精准的风险评估和信用评估。通过分析大量的金融数据,包括交易记录、信用报告等,大模型能够更准确地评估客户的风险水平和信用状况,为金融机构提供决策依据。例如,奇富科技 CEO 吴海生表示,金融科技是 AI 大模型实现较高产品市场匹配度最有确定性的领域,以 AI 集成的专家模型能够贯穿金融软件研发全生命周期,实现研发效率与质量双重提升。
同时,大模型还可以为客户提供个性化的投资组合方案。根据客户的风险偏好、财务状况等因素,大模型可以分析市场趋势和各类投资产品的特点,为客户量身定制个性化的投资组合,满足不同客户的需求。此外,网商银行在产业链金融中引入大模型,成为金融风控系统的 “助手”,帮助金融机构识别小微,提高了金融服务的精准度和覆盖面。
(三)交通领域
在交通领域,人工智能大模型用于智能交通管理和智能汽车研发,为缓解城市交通拥堵问题、实现更加安全高效的出行体验提供了有力支持。
在智能交通管理方面,全球首个发布并落地应用的交通行业大模型 —— 佳都知行交通大模型,为城市轨道数字化提供关键数字底座。它能够结合交通行业特定的数据与信息,深度赋能城轨智能客服、智能运维、应急管理等多个业务场景。例如,从乘客进入地铁开始,视觉大模型的集中判图能力协助安检快速完成,基于语言大模型的智能客服系统帮助乘客进行线路、票价等信息查询和快速购票,多模态大模型对站内的拥堵、异常情况进行实时判断,为相应的站内管控和车辆调度提供辅助决策和应急处置。
在智能汽车研发方面,自动驾驶汽车是大模型在交通领域的重要应用之一。自动驾驶汽车通过采集车辆内外的传感器数据,如雷达、摄像头、激光雷达等,利用大模型实现环境感知、路径规划和控制,减少人力成本,提高交通安全性和效率。
人工智能大模型前景展望
(一)机遇
公共大模型和私有大模型并用的混合式人工智能为行业创造增长机遇。
混合式人工智能正成为未来趋势,正如联想集团董事长杨元庆所说,通过公共大模型和私有大模型的混合并用,可以实现企业在享受大模型效率红利的同时,确保数据安全。个人大模型将依托混合人工智能的方式,逐步实现普惠,例如联想提出的 “云端公有大模型 + 企业私有大模型 + 端侧个人大模型” 的混合智能概念,让每个人都能拥有自己的专属 AI,大大提升生活品质和工作效率。
加速多模态应用,为各领域带来更多可能性。
多模态大模型应用前景广阔,如谷歌推出的 Gemini 可以同时理解文本、图像、音频、视频和代码五种信息,成为首个 MMLU 测评上超过人类专家的模型。随着 Gen - 2、Pika1.0 等多模态模型的快速涌现,全球大模型多模态化趋势日益显著,有望带动 AIGC 应用加速落地。在 AIGC 产业未来发展中,我国通用人工智能产业政策逐步完善,国产大模型能力持续升级,国产 AI 芯片产业链加快成熟,为多模态大模型的发展提供了良好的环境。
推动通用人工智能加速实现,具有巨大的发展潜力。
广东省科学技术协会常委、广东省人工智能产业协会会长杜兰表示,2024 年 AI 大模型会变得更聪明,具备更高的推理能力和更少的幻觉。同时,能够自主理解、规划决策和执行复杂任务的智能体将越来越发达,多模态技术会进一步发展。这意味着人工智能大模型将在推动通用人工智能的实现上发挥更大的作用,为各个行业带来更多的创新和变革。
(二)挑战
“百模大战” 热度减退,企业难以持续投入大量资金。
2023 年国内金融领域人工智能大模型遍地开花,一度上演 “百模大战”。然而,进入 2024 年,“百模大战” 的热度正逐渐减退,不少企业难以持续投入大量资金。有业内人士分析,未来在金融领域真正能坚持做人工智能大模型的厂商或许不超过 10 家。这对于人工智能大模型的发展来说,是一个巨大的挑战,需要企业在资金投入和商业模式上寻找新的突破。
金融业在应用人工智能时需兼顾成本、绿色金融发展目标等问题。
作为数据密集型行业,金融业积极拥抱人工智能,但在应用过程中面临着诸多挑战。一方面,成本是制约人工智能发展的因素之一,千亿级别参数、动辄以月来计算的训练周期,对应到存储环节意味着巨大的成本。另一方面,金融业在追求科技金融的同时,想要兼顾绿色金融的发展目标也面临挑战。这需要金融业在应用人工智能大模型时,寻找更加高效、可持续的发展路径。
未来真正能坚持做人工智能大模型的厂商或许不超过 10 家。
随着 “百模大战” 热度的减退,未来真正能坚持做人工智能大模型的厂商或许不超过 10 家。这意味着人工智能大模型市场将面临更加激烈的竞争,只有具备强大技术实力、资金实力和创新能力的厂商才能在市场中立足。同时,这也对人工智能大模型的发展提出了更高的要求,需要厂商在技术创新、应用场景拓展和商业模式创新等方面不断努力。



