OpenAI 正在重组其模型行为(Model Behavior)团队。据媒体日前报道,OpenAI 的首席研究官 Mark Chen 透露,大约由14名研究人员组成的模型行为团队将加入后训练(Post Training)团队,负责在模型完成预训练后持续改进。
模型行为团队已经成为OpenAI的关键研究小组之一,主要负责塑造模型的“性格”。今年8月推出的GPT-5减少了类似“谄媚”“过度迎合用户”的现象。
但部分用户强烈不满GPT-5的性格调整,认为其过于冷淡。最终,OpenAI 重新开放了对 GPT-4o 等旧模型的访问,并更新 GPT-5,使其回答在保持独立性的同时更温和、友好。
OpenAI近期也在最新研究中讨论如何减少大模型幻觉问题,让模型变得越来越聪明。OpenAI认为,大语言模型之所以会产生幻觉,是因为标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励。大多数评估方式只关注模型答对的比例,鼓励模型进行猜测,而忽略了“承认不知道”也是一种合理反应。例如,当模型被问及某人的生日,如果它随意猜测一个日期,那么它有1/365的概率猜对,而留空则肯定得零分。大型语言模型本质上总是处于“考试模式”,回答问题时似乎只有正确或错误,黑色或白色。因此,OpenAI提出了一个简单的解决方案:对自信的错误回答施加更重的惩罚,而对表达不确定性的行为给予部分分数。
近日,南方医科大学中西医结合医院教授杜庆锋团队联合中国疾病预防控制中心慢性非传染性疾病预防控制中心主任吴静团队,首次基于中国大规模人群数据研究发现,糖尿病共病高血压会显著提升老年人认知障碍的发生风险。其中,共病10年以上的患者痴呆风险激增73%,不过规范药物治疗可明显降低此类风险。相关成果发表于《阿尔茨海默病研究与治疗》。
研究人员依托“中国老年人神经退行性疾病预防与干预数据库”纳入13252名受试者,系统分析了糖尿病、高血压及其共病状况对不同阶段认知障碍的影响,为在中老年群体中开展认知障碍防控提供了关键循证依据。
研究发现,糖尿病共病高血压对痴呆的影响(OR=1.53)显著高于单一疾病,其中高血压对痴呆的影响OR值为1.18,糖尿病对痴呆的影响OR值为1.26。这表明,两种疾病共病时对认知功能的损害并非简单的相加,而是存在协同放大效应。
随着共病时间的延长,认知障碍发生风险持续上升。持续10年以上共病的患者,发生轻度认知障碍和痴呆的风险分别升至1.43倍和1.73倍。这表明,对于糖尿病共病高血压的患者,长期的病情管理至关重要。
高血压患者若在45至64岁确诊,痴呆风险显著上升(OR=1.22)。这说明,高血压发病年龄越早,对认知功能的潜在损害可能越早开始积累。糖尿病早期患病对认知功能的影响更为显著,45岁以下确诊的患者痴呆风险高达4.55倍。这进一步强调了早期预防和干预糖尿病对于保护认知功能的重要性。
该研究明确指出,糖尿病和高血压作为单一危险因素均会影响认知功能,而其共病状态会导致风险叠加效应,且早期发病及病程延长会进一步加剧认知障碍的进展。研究结果强调,要高度关注糖尿病共病高血压患者的高认知障碍风险,重视在共病人群中推行规范治疗与长期管理。
“该研究为将来在社区和临床中制定认知障碍高风险人群的早期干预策略提供了重要科学依据。”论文共同通讯作者杜庆锋建议,应加强对中老年糖尿病共病高血压人群的筛查管理与用药依从性支持,这可能是延缓或降低认知障碍发生的有效途径。
相关论文信息:https://doi.org/10.1186/s13195-025-01761-3
(原标题为《南方医科大学中西医结合医院等:糖尿病共病高血压显著加剧认知障碍风险》)
在本月初于阿塞拜疆举行的国际大学生程序设计竞赛(ICPC)世界决赛中,OpenAI、谷歌DeepMind两家公司的人工智能模型获得了金牌级别的成绩,顺利解出人类参赛者无法完成的问题。DeepMind称之为“朝着通用人工智能(AGI)迈进的历史性时刻”。
ICPC世界总决赛汇集了来自全球103个国家、近3000所大学的139支顶尖队伍。在一共12道题目中,排名第一的是OpenAI,成功解决全部12道题目。Gemini 2.5 Deep Think模型最终解决10道题目,达到金牌水准,位列第二。
OpenAI参赛系统由多个通用模型组成,包括GPT-5和一个实验性推理模型。其中,GPT-5解决了11题,实验性推理模型解决了最难的第12题,并负责最终提交决策。所有模型均未针对ICPC进行专门训练。OpenAI技术团队在赛后表示,“我记得刚加入OpenAI时,我们最好的AI模型甚至连Codeforces的简单问题都解决不了。看到过去两年的进步速度,真是令人难以置信。”
谷歌方面介绍,参赛的Gemini2.5并非专门为ICPC训练,而是用户在Gemini应用中可直接使用的版本。模型在比赛开始10分钟后启动,前45分钟便解出8题,三小时内又完成两题。DeepMind称,这一表现是人工智能在“解决抽象问题能力上的飞跃”。例如,Gemini在不到半小时内解出了“问题C”——一项关于管道网络向储液器分配液体的复杂优化问题,而这一题目无人类队伍成功解答。
“对我来说,这是一个相当于国际象棋的‘深蓝’和围棋的AlphaGo的时刻。”DeepMind副总裁Quoc Le进一步解释说,“更重要的是,它更接近现实世界,而不仅仅是像国际象棋和围棋这样受限的环境。正因如此,我认为这一进步有可能改变许多科学和工程学科,”比如设计新药或芯片。
谷歌表示,Gemini 2.5 Deep Think是一款经过专门训练的通用人工智能模型,可以解决非常困难的编码、数学和推理问题,其表现“与世界前20名的程序员一样好”。在这些竞赛中解决复杂的任务需要深度抽象推理、创造力、综合新解决方案的能力,以及真正的创造力火花。
不少网友在社交平台庆祝这一历史性时刻。AI在ICPC上斩获金牌可能意味着人工智能可以成为程序员真正的问题解决伙伴。但同时也引发了未来人类的编程能力可能会永远落后于AI的担忧。
加州大学伯克利分校的计算机科学教授斯图尔特·拉塞尔(Stuart Russell)在细节公布之前表示,“具有划时代意义的说法似乎有些夸大其词。”他认为,人工智能系统在编程任务上表现优秀已经有一段时间了,而“人工智能公司一直声称取得突破要面临巨大的压力。”
同时他也承认,“要正确回答ICPC的问题,代码实际上必须能够正常工作(至少在有限数量的测试用例上),所以这种性能可能表明,人工智能编码系统在足够准确地生成高质量代码方面取得了进步。”
·AI的出现,使得物质科学研究的范式已经发生了变化,也将推动新材料的研发数量和质量出现本质变化。
·创新首先是激发人才的创新兴趣,其次是社会要能够容忍创新过程中的失败”。
一、
作为一名从事计算的物理学工作者,如果没有AI的出现,我可能已经在思考“退休”了;但AI来了,物理研究的范式已经发生了变化,研究技术、研究效果和解决问题的难度都发生了根本性的变化。以前解决不了的问题,现在有了解决的可能。这是一个激动人心的契机,但也是充满压力的挑战,对于我来说,现在我们所做的AI物理,是一个全新的领域,也是我从事学术研究以来从未遇到过的大挑战。
技术的革新和经济的发展越来越依赖新材料的进步。以往的新材料研发主要依据研究者的科学直觉和大量重复的“尝试法”实验。材料的研发有点像玩乐高积木,可以有很多种搭法、无穷的组合可能,但什么样的材料是有用的,过去没法直接回答。但有了AI技术后,可以在一定程度上回答这个问题,AI可以快速地进行配比、模拟来验证。AI提供了一种全新的研究范式。
AI技术,特别是深度学习,正在深刻地变革分子动力学模拟领域,解决了该领域长期存在的一些核心瓶颈问题。譬如传统分子动力学的核心是“力场”,即描述原子之间相互作用力的数学函数。传统力场基于简单的物理近似,虽然计算快,但精度有限;而高精度的量子力学计算虽然准确,但计算成本极高,无法用于大体系或长时间模拟。AI通过从量子力学计算产生的大量数据中学习,可以构建出既接近量子力学精度、又接近传统力场计算速度的机器学习力场。
用传统的实验设备是无法捕捉分子的动态过程的,但AI(如无监督学习算法)能分析模拟数据,自动识别出描述动态过程本质的关键变量(反应坐标),让我们能实际“看到”原本几乎不可能捕捉到的动态过程。因此,AI使得分子动力学模拟在物质科学领域再一次出发。
二、
2024年,上海高校人工智能交叉中心——数智物理(AI Physics)在复旦大学成立,这是国内第一个“AI+物理”数智中心,对于我来说,跨入这一领域,压力很大,因为这是一个交叉学科,而我也只熟悉我自己那一小部分,以前在我的研究领域知识面,现在这个领域被重构了,需要涉及很多不熟悉的内容,我们需要更多的人来参与这一研究。
目前,“原始创新不足”是我们的一个很大挑战。以前我们可以学别人,跟着别人跑,但现在我们的科技发展已经跑到了很前面,后面能否跑好,其中一个重要的因素在于我们的创新人才。基础研究和应用研究都需要创新人才。
中国的人才培养有自己的特色。在过去的几十年,国家在人才培养方面下了很多功夫,但在创新人才培养方面,我觉得还有很多可以向别人借鉴的地方。比如说,鼓励学生创新,激发学生兴趣,容忍失败等。
我觉得中国的教育应该发展不同的教育元素,应该更加多元。中国现在有3000所大学,应该有一些不同类型的大学。如果教育都是一个模式,所有人都做一样的事,内卷一定会发生。
今年复旦大学物理系首次设立了量子智能英才班,我们尝试更多地加入创新人才培养理念与中国教育实践相结合,探索人才培养的新模式。英才班计划分两类招生:一是高考统考,二是入校后的“二次选拔”。入选的学生进行本博融通教育,本科毕业后授予物理学、人工智能的双学位。在校期间,英才班鼓励学生创新,开展批判性思考,并与清华、南大等高校建立交流机制。我觉得中国的本科生教育最重要的目标,应该是培养一些创新能力比较强的学生。
9月23日,第25届中国国际工业博览会(下称“工博会”)在上海开幕,“AI智能制造”是今年展馆里最醒目的主题:“工业+具身智能”、“AI驱动,让算法更智能”、“数智融合”等与AI智能制造相关的标语随处可见,从能与人实现对话交互的协作机器人,到工业具身智能柔性生产线在展会现场演绎一条产线“永不停歇”,AI正以前所未有的密度出现在工业制造的舞台。人工智能技术正在推动行业的数字化转型和智能化发展,AI正成为影响工业企业发展的重要因素。
但眼下产线的稳定性和AI落地后的成本问题,仍是绕不过的两大门槛。
AI超级生产队
在工博会现场,微亿智造携手捷勃特发布工业具身智能柔性生产线“创TRON”新产线。这条工业具身智能柔性生产线由8台机器人组成,既能完成生产过程中将物料上下料,还能进行检测和装配,一旦有机器发生故障,临近的机器设备会自动分担任务。“这是24小时不间断标准化生产的超级生产队”。微亿智造董事长兼CEO张志琦这样形容。
张志琦认为,要让AI很好地赋能生产,关键是让AI吸收人类老师傅的经验,把人类几十年的制造智慧转化为模型。“过去是师傅带徒弟,现在是师傅教AI,AI再去组织生产。”
在本届工博会上,英特尔以工业AI为核心概念,携手多家生态合作伙伴,对外展示了在具身智能、人形机器人、工业AI与大模型、工业机器视觉、工业控制等领域的前沿解决方案与算力平台,还发布了基于英特尔® 酷睿™ Ultra平台的具身智能工厂落地案例。
根据英特尔发布的《智启边缘:英特尔软硬件一体化赋能产业AI应用实践白皮书》(以下简称《白皮书》),预计到2028年,中国工业企业AI支出将达到900亿元人民币, CAGR(复合年增长率)为37.7% 。利用先进的算法和强大的计算能力,AI和大模型能够优化生产流程、提高产品质量、降低成本,并增强供应链管理。
微亿智造则提出一种可能性,未来工厂生产线70%仍将保持传统自动化,20%由具身智能补足,10%留给人创造更大价值。“具身智能不会让工人都下岗,而是释放人力,从繁重重复劳动中解放出来。”张志琦称。
微亿智造携手捷勃特发布工业具身智能柔性生产线“创TRON”新产线。
高成本与“不稳定性”的担忧
AI正在逐步渗透进工业制造,但算力、数据、成本和生态的现实瓶颈,决定了它不可能一蹴而就。
未来工业领域AI智能化的趋势是让机器人能够自主判断要抓取的物体、要焊接的工件,业内人士判断,这一过程需要5到20年才能实现。
在工博会现场,上海松川远亿机械设备有限公司展示了一款AI语音交互功能的协作码垛机器人操作。该公司工作人员黄云龙介绍,操作员可以用语音对话唤醒机械臂抓取,但目前还未正式投入产线使用。
英特尔中国边缘计算事业部行业解决方案总经理李岩在接受澎湃科技采访时指出,工业制造领域本身是一个高度讲究可靠性、准确性的场所,对新技术、新产品的接受度一定不会太激进。企业必须看到数据验证结果,算清ROI(投资回报率),确认有实效,才会真正部署,“这是我们常说的‘最后一公里’问题”。
眼下,企业普遍担心AI落地后的高成本和产线稳定性问题。
据黄云龙介绍,不加AI语音功能的码垛机器人,一台售价在3万到4万元,一旦搭载了AI功能,单价会明显上涨。对于多数工业制造企业而言,加入AI功能必须算得过一笔账,一台设备替代两个人工,两年内若收不回成本,就不可能投入生产线。
产线的稳定性同样关键,机器一旦出问题,停一条产线的损失,远比少几个人力大。 另有参展商告诉澎湃科技,工业机器人加入AI功能,具备自主判断的“智能抓取”还处于展示阶段,到真正应用还需一定的时间。
AI落地工业制造离不开算法、算力和硬件的支撑。
英特尔技术专家介绍,工业现场很多场景无法依赖云端算力。视觉检测和机器人控制都要求毫秒级响应,只能在端侧部署。因此,如何在功耗和成本受限的边缘设备上运行AI,成为关键挑战。对此,英特尔提供的解决方案覆盖从边缘端到数据中心的全链算力平台,包括酷睿Ultra处理器、Xe内核与MXM矩阵加速引擎显卡系列等产品,满足从机器视觉到大模型部署的多类需求,就是为了帮助客户加速工业AI大规模落地。
张志琦称,具身智能和AI时代,很多传统自动化理论和经验已经被颠覆。市场需要一个认知过程。就像自动驾驶经历了从“全自动”到“辅助驾驶”的回调,工业AI也在寻找最合适的落地姿态。
从科研工作者到副教授,青年科学家武庆庆最直接的体会是:热爱科研的人需要一个不被“打断”的研究环境。只有在完全沉浸其中时,才能进入“心流”状态,孕育出真正有价值的、创新的科研想法。
武庆庆,思源青年学者,国家海外优青,科睿唯安全球高被引科学家,获上海市自然科学一等奖、中国通信学会青年科学奖、IEEE通信学会最杰出青年学者等,目前主要研究领域包括6G智能超表面通信、低空智联网、通信-感知-定位-计算一体化等。
2012年从广东华南理工大学信息工程专业毕业后,武庆庆直博到上海交通大学,期间专注于“绿色通信”研究,为后期在低功耗低成本智能反射面(IRS)通信的突破性工作奠定了基础。2016年,博士提前毕业后,加入新加坡国立大学担任博士后研究员,与新加坡工程院张瑞院士合作开展研究。2022年,武庆庆回到上海交通大学集成电路学院担任长轨副教授。
以下是他的讲述:
【1】
2022年我开始担任上交大长轨副教授至今三年以来,除了科研工作外,还要承担学生事务等日常工作。这些天,我正在忙着招聘我的研究生团队。
现在来面试的研究生感觉和我们当年科研状态不同,在从事学术研究这件事上,常常看不出他们很强的学术“野心”。我觉得有学术野心这点非常重要,在漫长的学术研究生涯中,会充满非常多的挫折和失败,很多学生现在对做科研这件事,选择并不坚定,只是想尝试,总想着自己还有很多后路可以选择。
但科学研究刚开始时的进展都非常缓慢,只有到最后才有可能迎来一次爆发。比如数学家张益唐到了58岁,才在数学领域才有一定成果。
我刚走上科研这条路时,面临挺多的困难从华南理工大学直博到上海交通大学时,我遇到了陈文教授,他对我的教育一直是鼓励式的,每当我提出新的想法时,他总会积极鼓励我。后来我逐渐意识到,这种鼓励式教育对我整个学术生涯非常重要。
我现在招收学生,非常看重他们是否具备主动性、好奇心和韧性。现在大多数学生,是通过应试教育筛选出来的,能把一件事做得整体还不错,但如果要真的把一件事做到极致的优秀、极致的创新,就需要多一份热爱和好奇心,再加上持续不懈的努力。
【2】
现在很多人聊AI,但其实在我当时学习信息工程专业研究“绿色通信”这一方向时,在无线通信领域,火爆程度不亚于现在的AI。
“绿色通信”用我博士学位论文四个字概括即开源节流,尽量实现高能效、低功耗。从4G发展到5G,再到现在的6G时代,能耗和成本已经成为整个通信产业界的痛点问题。
如果说1G到4G的发展,主要满足人与人之间的沟通交流,比如语音、视频通话等。那么5G时代,除了继续提升超高清视频通信能力之外,更重要的是服务于千行百业。
而6G与5G不同之一是端到端的延迟会降低到毫秒以下。比如在大型的工业物联网、大飞机制造等工业的场景中,需要无人化的协同,在同步的过程可能毫秒级的时延就会产生很大的偏差,对未来造成一定的风险,这个时候就需要极低的延迟。
我和我当时新加坡国立大学的导师张瑞院士曾调研过,5G时代基站需要的个数是4G时代的三倍左右。单个基站的价格,也是4G时代的三到四倍。 通信频率越高,每个基站的覆盖范围会变小。因此,如果采用传统的建站方式,6G需要更高的建站密度,对运营商来说,成本和能耗更加无法接受。
智能反射面(IRS)赋能通信技术,能很好地缓解这一问题。
智能反射面本身并不产生信号,也不接收信号,所以不需要很复杂的、高成本高能耗的射频链路,能有效降低成本和能耗。
同时,智能反射面可以部署到网络空间中,比如天花板、墙壁、大楼表面,甚至大型广告牌。整个空间中并不缺乏电磁信号,只是缺乏对电磁波信号的有效引导。这个技术的初衷,是希望能够在信号传播过程中通过反射操纵电磁波往哪个方向走。它不是一个发送者,而是中间链路的重构者或者赋能者。
要想把这项技术运用到实际通信系统中,要做好前期充分的理论验证。我们发现随着面板尺寸的扩大,单元个数的增多,接收端的功率增益会随之以单元数的平方阶数增大。但在无线通信发展的过程中,据我所知教科书中并没有提到有过二阶的增益,最开始我们有点不太相信,后来意识到这可能会是一个新的突破。也正是因为这个原因,我们对论文的发表变得非常谨慎。
我还记得一个下午,我和张瑞老师讨论了两件事,一是如何将这个方向往前进一步推进,二是应该如何对这一技术进行命名。最终,做了充足的仿真试验和严谨的理论推导后,我们发表了论文,引起了非常大的反响。2篇早期的IRS的论文荣获2023年IEEE通信学会Fred W. Ellersick Prize以及2022年IEEE通信学会亚太杰出论文奖,两篇论文谷歌学术引用都达到4000多次,后者排在无线通信领域顶刊IEEE TWC 创刊20余年以来的被引次数历史第三位。
很巧的是,当年发表在无线通信领域顶刊IEEE TWC排名历史第二的论文来自美国工程院院士托马斯·L·马尔泽塔(Thomas L. Marzetta),他在2009年提出了5G核心技术——超大规模MIMO的初步构想。十年后,我们提出了面向6G的潜在关键性技术。
从4G到5G时代,中国的声量不断增大,从跟跑到现在核心专利方面做到全球领先。6G时代,我们一代一代的科研工作者希望能把通信技术继续往前推进。
国内高校还牵头成立了面向全球学术界和产业界的智能超表面技术联盟(RISTA),中国的企业、高校和科研工作者在其中发挥了主导性作用。
不过现有技术还在进一步的研究当中。之前的研究大多在实验室场景中,而在大规模的室外场景中,信道环境会更加复杂。智能反射面需要知道用户在什么地方,以及用户移动时怎样追踪。作为网络中一个新设备,又需要跟基站进行同步或者非同步的操作。所以这项技术的商用还需要进一步地标准化研究。
2019年在一次采访中我曾提到,我的目标是能把我和我的导师张瑞院士提出的智能反射面技术应用到下一代的移动通信系统中,写进6G的标准里。现在回想起来,技术的发展在很多时候会超出你的预期。在2030年之前,我们有很大机会能看到这项技术局部落地投入商用。
【3】
我认为所谓的“颠覆性”创新,追求的是纯粹的创新,是从0到1的突破,甚至具备跨学科视角。
比如我现在研究的,以智能超材料为核心的电磁调控或以智能超表面为核心的传输技术,是一个跨学科方向。不仅需要通信领域的知识,还涉及电磁材料学,也融合了AI的元素。我们希望未来的智能反射面设备能够部署到环境中,能自主调节,而不是依赖人为干预,这其中人工智能将发挥重要作用。
往往跨领域、跨学科比较容易催生出颠覆性创新技术,因为在传统赛道上,很容易想到一些技术的拓展和延伸,很多时候颠覆性创新,需要一些天马行空的突发奇想。
科研初期阶段,很多时候其实并没有意识到当时的想法会具备颠覆性,更多的时候,只有纯粹地去研究这项技术、思考如何解决技术痛点,在这个过程中往往可能出现某些颠覆式创新想法。
如果每天想着“我一定要做出颠覆性技术”,反而会给自己带来压力。所以很多时候,我在做科研时更重要的是保持好奇心和坚持不懈地探索,持续尝试不同的可能。而且,科研需要给自己创造一个相对放松的环境和心态,不能总是时刻紧绷着。
科研不像流水线生产,不是机械重复操作就能保证成果产出。只有在自由探索、放松的环境中,才更容易孕育出高质量,甚至具备颠覆性的成果。
比如,很多天马行空的想法,需要你处于很放松的状态,甚至带有一些无知、无欲、无求的过程。
【4】
为了让自己在科研时有一个放松的状态,我曾经尝试过很多运动。比如游泳、乒乓球、羽毛球等。
但最后发现,从本科到博士、再到助理教授,后期我定居上海,只有跑步是门槛最低、能陪伴我最久的运动方式。
当然,科研工作者有时也会存在惰性。我想很多人没能坚持出门运动,可能跟他们对运动能给人带来的好处认识深度不够。只有你认识得足够深刻,才会有足够的执行力开始锻炼、运动。
我在本科阶段,曾经是一个不爱跑步的人。但后期慢慢地意识到运动对科研工作者的重要性。为了让自己下定决心开始运动,前期我做了很多科学的调研,经过系统的调研我对运动有了新的认知,运动是最好的“药物”之一。这种认知不仅是“知道运动有好处”,而是理解“为什么要做、不做会带来什么后果”。
我还有一点很深的感触,科研工作需要集中注意力高效率完成,这需要让自己处于一个不被打断的环境里,只有这样才能深度思考。如果不停被各种琐碎的事务打断,再重新开始,很难有很好的效果。
在博士和博士后期间,我做科研时,我会常常把手机调至飞行模式,保证科研能够全身心投入,让自己进入一种高度沉浸的“心流”状态。
自从我担任教职以后,我的时间逐渐变得碎片化,对接学生、开会等这类事务把我的时间切割得非常零散,这对科研创新其实很不利。现在我会刻意留时间给自己闭关思考。
我喜欢看人物传记,近期在看的书是菲尔兹奖获得者、清华大学数学家丘成桐写的自传《我的几何人生:从贫穷少年到数学皇帝》。几何人生,人生几何。他成长于上一代非常艰苦的环境中,但是在全球数学领域里产生了非常深远的影响。
他是数学家,却有很强的文学功底,还能作诗,我很好奇他是如何兼顾科学的理性和文学的美感,这点让我感触颇深。
常有人说,可能懂得很多道理,但依然过不好这一生。这本质的原因可能跟自我管理有关,如果你能把所学的知识成果落地转化到应用起来,这其实需要长远的过程,这点跟我们科研工作者挺相似的,科研工作本身就是从不知道到知道,最终解决问题到落地。
自动化技术让工业生产得以按照预设流程精准运行,但人工智能的浪潮,正推动制造业从“自动化”迈向“自主化”的下一阶段——系统不仅能执行命令,更能自主决策、动态适应,在复杂多变的工业环境下寻找最优解。
想象一下,在这样的工厂中,系统会预测订单变化来灵活排产,提前感知设备潜在故障并触发维保方案,动态调整工艺参数以确保产品质量,根据生产节奏优化厂内物流路线……这一切都不需要人工逐条输入,而是由“工业智能体”在理解全局目标和约束的基础上自主决策、执行。
我们离这样的场景还有多远?企业在部署工业智能体方面都有哪些探索和挑战?这一技术究竟是现有自动化系统的锦上添花,还是足以颠覆生产范式的革命性力量?为了探寻答案,我们深入制造业一线,结合西门子与至顶科技在工博会期间联合发布的《2025工业智能体应用现状与趋势展望报告》,以及对国内多家制造企业与行业专家的深度访谈,试图揭示工业智能体在真实世界中的应用现状、挑战与未来。
智能与自主:什么是“工业智能体”?
通用人工智能的演进遵循着从聊天机器人(Chatbot)到“副驾驶”(Copilot),再到智能体(Agent)的路径。聊天机器人被动地回答问题,智能“副驾驶”能辅助人类完成特定任务,已具备一定的自主能力,而智能体的核心特征就在于高度“自主性”——它不只是“听指令”,更能“做决策、真干活”,可以自主感知、规划,并调用工具来完成目标。
长久以来,工业控制的逻辑建立在精确的预设程序之上。这种基于规则驱动的自动化系统,虽然高效稳定,但其本质是“听话”的工具,一旦产品或环境发生变化,就需要人工重新编程和调整。
“‘智能体’的概念一直都有,比如说变压器开关就可以说是早期的智能体,它能够感知电压过载并进行熔断的决策,只不过这个决策非常简单。”复旦大学计算与智能创新学院教授、上海市数据科学重点实验室主任肖仰华解释道,“我们重提智能体,主要是因为它在大模型加持下,自主性有着以前达不到的水平。”
“传统的工业AI应用更多停留在‘感知+识别’层面,本质上是对人类经验的数字化复制和自动化执行。工业智能体则实现了从‘感知智能’到‘认知智能’再到‘决策智能’的跨越,具备了在复杂工业环境中进行自主判断、动态调整和持续优化的能力。”上海市人工智能行业协会秘书长钟俊浩说。
这些能力让工业智能体在车间和产线上“大显身手”。机械工业第六设计研究院有限公司总工艺师、智能制造研究院院长刘波认为,工业智能体“代表了一系列广义的AI技术应用,但其核心是要能实现环境感知、数据分析、决策优化,并最终驱动末端设备执行,本质上追求的是更高程度的自主化。”
“好的智能体具备四个条件:‘有知识’、‘善理解’、‘会思考’以及‘强执行’。”肖仰华说。
在许多一线从业者看来,工业智能体的应用是一场渐进式的革命。一家头部食品饮料企业的AI负责人认为,智能体的核心是“辅助和优化决策”,其公司早已基于机器学习、视觉识别等AI技术和垂类模型,在供应链预测、质量检测等场景中实现了初步的智能决策。而能够理解自然语言、进行推理的大语言模型,更像是为这些早已存在的“大脑”提供了一个更自然的交互界面。
另一家头部新能源汽车企业的AI负责人则更强调智能体作为一个完整系统的角色。他将其定义为“连接整个大模型跟整个应用场景的一个(载体)”,并强调其必须具备双向闭环能力。“他们必须要把整个大模型的能力赋予整个技术场景来解决问题,”他说,“同时要从整个产品里面把相关的反馈在整个大模型里面,再形成一个双向的闭环。”
要理解工业智能体如何工作,西门子携手中国十五冶打造的有色金属冶炼案例提供了具象的视角。在炼铜行业,冰铜是纯铜诞生前的“半成品”,冰铜品位指冰铜中铜的含量,过高或过低都会影响成品质量和炉体寿命。传统模式下,冰铜品位调控比较粗放,高度依靠“老师傅”把关。西门子与中国十五冶合作,整合多工艺段设备数据,以及行业文献、工艺规范和“老师傅”口口相传的经验,打造了炼铜行业首个下沉到边缘的智能体。它不需要反复通过聊天指令推进任务,自己就能独立完成从趋势预测、参数寻优到深度推理的全过程。
该案例是典型的智能体在生产制造过程中的应用。其实,不仅是生产制造环节,西门子Industrial Copilot融合生成式工业人工智能助手与智能化系统,覆盖研发、工程与运维等多个关键环节,能够全方位赋能工业价值创造。
在研发环节,集成智能体的工业软件基于简单的工程师指令即可告知操作方法,甚至直接生成相关模型;在工程环节,人工智能助手与TIA博途无缝集成,把工程师的自然语言需求直接转化为工程成果,快速生成PLC程序与HMI界面;在价值点分布更广的运维环节,人工智能助手与多智能体协同,通过简单交互即可灵活调用工业软件、模型等工具,提供诊断支持与优化建议。
总体来看,工业智能体是推动工业自动化向自主化演进的关键力量。它既包含了各类AI技术在工业场景的深化应用,也指向一个终极目标——构建能够像人一样思考、决策和行动的自主工业系统。
观望与探索:工业智能体的落地情况
·一半观望,一半探索
在国家“制造强国”与“人工智能+”战略的推动下,制造业的智能化转型已是大势所趋。今年8月,国务院发布《关于深入实施“人工智能+”行动的意见》,明确“推进工业全要素智能化发展”的目标。“这标志着国家层面将工业智能体发展提升到战略高度。”钟俊浩说。
然而,作为一项新兴技术,工业智能体行业仍处于早期发展阶段,大部分企业仍在“岸上”谨慎评估。由西门子与至顶科技联合发布的《2025工业智能体应用现状与趋势展望报告》(以下简称《报告》),调研对象覆盖约10个重点行业的200余家中国制造企业,结果显示,43%的受访制造企业尚未部署工业智能体,仍处在观望阶段;24%的企业仅在少量场景中初步应用;而实现多场景部署的,仅有8%。
化工与材料领域积极尝试工业智能体应用
一些先行者已经蹚出了务实的路径。一家头部重工制造企业的AI负责人透露,他们早在2021至2022年便开始部署相关系统,在新建的“灯塔工厂”中,已经能够实现从接收订单、动态排产到生产执行的全流程打通,基本无需人为介入。
更多的企业则选择了更适合现有工厂与产线的“点状突破”策略。前述新能源汽车企业将智能体应用聚焦在两个关键场景:一是将复杂的质量标准和工艺规范知识化,形成智能体,用于生产过程中的质量检测;二是在设备运维方面,通过智能体实现预测性维护和故障排查指引。而受访食品饮料企业部署的智能体则在供应链需求预测和营销端的视觉识别等场景取得了显著成效。
·全流程的自主化
从自动化到自主化的趋势,正在制造全流程中逐步渗透。报告数据显示,生产制造(44%)、研发设计(32%)和运行维护(25%)是企业部署工业智能体的三大核心场景。
生产制造为主要应用环节,化工、汽车、冶金企业积极尝试
在生产制造环节,智能体正成为提升效率与质量的关键。上述重工企业通过智能体实现了生产资源的动态排产与调度;新能源汽车企业利用智能体对焊接过程中的电流、电压等数据进行分析,实时优化参数,确保焊接质量;食品饮料企业则通过视觉智能体自动完成质检,替代了大量重复性的人工劳动。
在运行维护环节,智能体扮演着“数字专家”的角色。这家新能源汽车企业与科技厂商合作,开发了设备运维智能体,具备预测性维护的功能。当监测系统发现问题时,它会自动提示并分析故障来源。另外,该智能体还整合了工业领域的专家知识库,员工只需用自然语言描述故障,智能体便能分析原因并提供详细的解决方案和操作指引。
而在研发设计环节,不同行业的应用情况则呈现差异。汽车企业的负责人认为,由于已有成熟的虚拟仿真软件和代码生成工具,研发环节的智能化落地难度相对较小。但食品饮料企业因其行业特殊性(核心研发在于配方),AI的应用则相对有限,更多是辅助市场部门进行消费者口味偏好的数据分析。
刘波指出,在一些特定领域,智能化应用已相对成熟,例如构建数字孪生工厂进行仿真优化、产线的柔性换产、核心工艺过程的优化以及设备的预测性维护等。这些场景的成功落地为更广泛的应用提供了信心和范本。
·降本增效的核心价值
除了政策利好之外,企业为何要拥抱智能体?《报告》提到,提升效率(77%)和降低成本(62%)是企业最看重的两大价值。
企业普遍认同智能体可提升效率,小微企业看重降低成本和优化管理
“我们通过AI优化钢材的排版和使用,仅仅降低1%的用量,一年就能节约成本超一亿元。”受访的重工制造企业的负责人分享了工业智能体的部署所带来的切实效益。而上述食品饮料企业则表示,过去销售人员需要手动巡查、拍照、录入商超中的产品“堆头”(促销陈列),现在,通过视觉智能体,拍照即可自动识别和统计,极大地解放了人力,提升了数据反馈的及时性和准确性。
成本、人才、技术与安全:智能体落地的挑战
·成本与收益之问
尽管前景诱人,但将聪明的AI“请”进工厂,并让它可靠地“干活”,却面临着重重挑战。其中,成本是企业考虑最多的问题。《报告》显示,63%的企业将“部署成本高”列为首要挑战。这笔账远不止一笔采购费那么简单,还涉及与现有系统集成等隐性成本,改造投入甚至可能超过智能体开发和购买本身。
“不同厂商、不同时期的标准协议都不一样,”上述重工制造企业的负责人坦言,“我们工业智能体要串联起来,就需要全域的数据联通,这是非常难的一件事。”
除了前期投入之外,部署智能体的收益周期也相对较长。“如果是采用云端轻量级部署,投资回报可能就是一年到两年。企业级的本地部署,投资回收期会长一些,一般要五到六年。”刘波说。
这些因素让不少决策者望而却步。前述食品饮料企业的负责人也坦言:“没见到结果之前,无论是人员投入还是资源投入都会有所顾忌。”
尽管如此,专家们普遍认为企业仍应积极拥抱科技创新带来的产业变革。肖仰华强调,智能体带来的影响远超技术应用本身,它关乎生产关系的重构。即使面临ROI(投资回报率)不确定性,企业也应当从战略高度去思考和布局。
·“懂算法的不懂生产”:人才的结构性短缺
企业成本压力普遍较大,人才短缺也备受关注
报告中,“缺乏专业人才”(46%)是第二大挑战。这个问题在访谈中得到了所有企业负责人的共鸣——市场极度缺乏既懂技术又懂现场的“跨界人才”。“最大的挑战在于,算法的人员他不懂生产,生产的人员不懂算法,这两者之间怎么打通?”上述重工制造企业的负责人直言。
“我们今天处在一个技术供给远远超出我们技术消费的时代。解决问题的技术可能早就有了,最大的瓶颈是人,缺乏能够结合当下技术成熟度,分级分类地去选用相应技术来解决问题的人才。”肖仰华表示。
钟俊浩一针见血地指出了当前复合型人才培养面临的“三重脱节”困境:高校培养与企业需求脱节、产学研合作深度不够、行业认证体系不完善。刘波认为,人才培养的方向应该是让懂制造的人才具备数字化素养,“核心是制造,制造是本质,智能化是赋能手段。首先应该具备制造的知识,在此基础上去培养数字化素养。”而这个过程需要时间以及社会各方面的配合。
·面对复杂工业场景,智能体技术准备好了吗?
除了成本与人才,40%的企业也认为工业智能体的“技术不成熟”。这种“不成熟”主要体现在模型的“水土不服”和结果的“不可靠”。
“工业是含金量最高的‘战场’,却也是‘最难啃的骨头’。AI落地工业需要融合大模型、行业知识、高质量数据与应用场景,其中,行业know-how是工业企业制胜AI时代的底层核心能力。”西门子全球执行副总裁、大中华区总裁兼首席执行官肖松博士在《报告》发布现场提到。
尽管AI技术本身在不断进步,但通用语言大模型难以直接应用于工业生产。上述新能源汽车企业的负责人解释道,大语言模型主要基于互联网文本数据训练,而工业数据是“杂乱”且多模态的(包含时间序列、图纸参数、工艺配方、三维建模等),“这样的数据特征决定了它在工业领域的应用边界”。工业垂类模型因此成为必需品,但这需要深厚的行业知识积累和数据沉淀。
“现在通用人工智能就好比发电厂发出很强的电,但是不是大家就能用呢?最终还得有好的电器设备。”肖仰华也认为,通用AI抬高了智能的天花板,但真正落地需专业化路径,如知识图谱等弥补知识不足。
同时,AI的概率性输出与工业生产要求的高度确定性之间存在天然矛盾。上述重工企业负责人表示,AI无法达到“百分之百的准确率”,在安全生产等“零容忍”场景中应用受限。智能体目前更多是“辅助决策”,而非“替代决策”,最终判断仍需人的介入进行方向把控和价值判断,形成人机互补协同(human-in-the-loop),
·数据安全的隐忧
训练AI模型、建造智能平台都需要数据,企业可以自己部署,也可以向外部厂商购买智能化定制服务。即使在SaaS(软件服务)模式提供更低成本和更快部署的情况下,仍有50%的企业倾向于本地私有化部署,这背后主要是对工业数据安全的考量。
本地部署不仅意味着物理隔离,更能满足低延迟的生产环节。某重工业和汽车制造企业都明确,核心生产数据绝不出厂,外部供应商需要“来现场使用我们的数据”进行开发,这是典型的“数据不出域”策略,但也同时透露这种以自研为主的创新路径面临成本和效率的双重挑战。有企业负责人也表示,在业务敏感度低、实时性要求不高、数据分布广泛以及算力要求高的场景,如设备预测性维护、营销与售后客服、设计研发等,云端部署则更具性价比。
这些数据表明,企业正在根据业务的敏感度和实时性要求,灵活采用混合部署策略。对于中小企业来说,成本、AI技术本地化能力和柔性生产的能力可能是部署工业智能体最主要的障碍,而专业的服务提供商能够提供相应的解决方案。刘波指出,SaaS模式以其低成本、高效率的优势,为中小企业尝试工业智能体提供了可行的路径:“采用这种云端轻量级部署,算力资源、大模型采用云服务,在工厂侧布一些端侧设备,这样投资较小,回报较快。”
更自主,更系统,更开放:工业智能体的趋势未来
未来的工厂将是什么样?刘波描绘了一幅蓝图:“它会实现全工厂的动态感知和实时决策,具备柔性生产和自主组织的能力。”在这种模式下,人的角色将发生根本性转变,“人会从自己解决生产问题,变成向机器提出正确的问题,这可能是比较重要的一个转变。”
伴随着制造自主化水平的提升,工业智能体也将不再是解决单一问题的孤立工具,这一点已经在很多落地应用中初现端倪。未来的工厂将由多个智能体协同工作,形成一个庞大的“神经网络”,实现全链路的动态调优。“大型制造业无疑会从单点智能体走向系统智能体。”上述重工制造企业负责人判断。
同时,多智能体系统也能调用不同模型和工具的能力,比如通用大模型负责交互和通用知识,而处理具体工业任务(如工艺参数优化、异常检测)则交给更懂行的工业垂类模型。
肖仰华认为,工业智能体所带来的变革核心在于对生产力要素的重构。“具有高度自主决策水平的智能体,本质上就是新型的劳动力。”这将促使企业从组织架构、业务流程到经营管理都进行一场“智能原生”的深刻变革,而不仅仅是简单的“AI+”。
企业单打独斗的时代已经过去。《报告》显示,68%的企业愿意与外部科技厂商合作共创。这种合作并非简单的采购关系,而是数据、技术和场景知识的深度融合,包括工业模型的共创。实践中已经涌现出多种模式:食品饮料企业与大学的产学研合作,新能源车企与科技巨头的技术合作,以及重工企业与各类专业供应商的场景合作。
钟俊浩认为,一个完善的工业智能体生态,应包含技术底座提供方、行业解决方案商、数据服务商和系统集成商、标准认证机构和产业投资机构等关键角色,形成“技术-产业-应用-服务”的完整闭环。
一场工业的智能革命,或许已经悄然打响。工业智能体正从一个前沿概念,具体化为生产线上的质检员、供应链里的预测师、设备旁的维护专家。从自动化到自主化的跃迁之路,漫长而充满挑战,但它所指向的,是一个更高效、更柔性、更智能的制造业未来。对于国家而言,面对全球产业链重构和国内市场转型的挑战,工业智能体通过赋能生产线的自主决策与优化,有望将制造业的竞争优势从“人口红利”转向“技术红利”和“智能红利”。
扫描上方图片内二维码,查看报告全文
·“概念验证”的关键是服务能力,“是不是一定要建一个独立的概念验证中心”需要进一步商榷。因为中心一旦建成,“项目来源”、“谁来服务”、“资金来源”等都是非常现实的问题。希望有一天, DARPA 2%改变世界格局的项目中,哪怕只有2%是由我们深度参与推动的,也会很有成就感,因为那是在改变世界科技创新格局,而不仅仅是推动某一个企业的技术升级。
一、
在过去很多年里,中国的科技成果转化一直存在很多堵点,其中一个便是当下的热点“概念验证”。以前,很多高校老师的知识产权转移给企业后,企业真正能用上的很少,原因就是成果在转移前缺少了“概念验证”。
概念验证是科技成果转化中的一个很关键的环节,一项科研成果最终能否转化成真正的商品,其中要经过多次验证,首先是创意验证,纸上的成果、想法虽然好,但能不能做出来,还需要材料、设备跟得上;其次样机做出来了,能否规模化,也需要验证,很多产品在真实环境的运行结果和实验室数据相差很多。
这两年,大家都认识到了“概念验证”的重要性,各地都纷纷在建立“概念验证中心”。
东部中心也在探索,目前我们建立了两个概念验证中心,分别是和复旦大学合作建立的上海国际绿色低碳概念验证中心,以及与宝山区合作建立的Blink医疗器械概念验证中心。
以绿色低碳概念中心为例,这个中心目前主要服务于涉及绿色环境、大健康领域的科研设备国产替代。最初是复旦大学环境系找到我们,说他们有很多项目想转化,于是我们决定共建一个概念中心,推动成果批量转化。中心自2023 年启动建设,至今差不多两年时间,设立了9 家公司,其中 3 个公司拿到了投资;发布了有 7 台样机,还促进了技术交易和产学院合作近1000万元。第二批验证项目中除了复旦的项目,还有来自同济、上海理工等其他高校的项目。
通过概念验证中心的服务,我们为高校老师的技术找到了更广阔的应用场景,并在商业化、融资方面提供支持。
在科技成果转化的过程中,我不赞成人为地把前期判断、概念验证、小试、中试这些环节割裂开,因为它应该是一个完整、连续的过程。一个成果在概念验证中心完成了概念验证,并找到了应用场景,后续的小试、中试,甚至到注册公司、进入孵化器寻找投融资,我们也会参与支持,这是一个长期陪伴的过程。
二、
当下概念验证中心要想依赖自身的商业运营实现盈利还是很困难的事情。绿色低碳概念验证中心过去三年,我们的累计投入金额超过三千万元,其中最大的投入是服务人员成本、验证资金以及场地建设费用等。硬件只是概念验证中的一个元素,验证过程中需要很多专业人士提供服务,譬如高校老师的一个研发成果要转化为可用的设备,需要工业设计、工程师团队的加入。
概念验证中心本身就带有一定的公共服务性质。我们服务的成果方只有完成了产业化,有了销售订单或投资,有了收费能力后,才可能付费给我们;在此之前,如果要预收费是比较难的;能够收费的对象目前主要是以大企业为主的需求方,因此目前市场上的很多中心都要依赖政府补贴。
在我看来,概念验证的关键是服务能力,“是不是一定要建一个概念验证中心”是可以进一步商榷的事情。因为中心一旦建成,“项目来源”、“谁来服务”、“资金来源”等都是非常现实的问题。
对于高校老师来说,不是给他们提供一个设备,他们需要一个团队去补齐短板,最终形成一个完整的链条,让项目真正落地。所以我觉得目前概念验证环节中要解决的最关键问题是培养专业服务人员以及提升服务人员的服务能力,其次是能够容忍失败的资金。
隶属于美国国防部的DARPA(美国国防部高级研究计划局)是通过资助全球前沿科研项目推动创新的范例。
DARPA专注于基础性、先导性和颠覆性技术研发,涵盖人工智能、无人机、生物技术等领域。DARPA明确接受高风险项目的高失败率,其核心理念是“允许失败,但必须快速迭代”,综合其60多年的运营数据显示,其项目失败率高达98%,但其2%的成功项目改变了世界的科技格局。
DARPA也是典型的项目经理人主导的前沿创新,扁平决策、项目经理全权、柔性退出机制,让技术方向可随时调头。
三、
目前,上海布局概念验证中心布居分为自上而下和自下而上两类。自上而下是由政府主导的模式,比较适用于风险更大的前沿产业。
但其实各行各业都需要概念验证,因此自下而上也会有很多需求存在。概念验证阶段的高风险性,使得政府引导资金的参与是必要的。当然,我们也鼓励民营企业参与,如果和自身的技术、产品或发展战略相关,也是有部分民营企业愿意的。
东部中心是一个平台类的国资企业,具有很强的公共服务职能。但我们也不打算建太多概念验证中心。在摸清它的运营流程,将可能会遇到的问题和难点整理, 把真正的服务能力组织起来后,我们希望培育一批能够进行概念验证服务的团队,然后将这些人输送到各个项目中去。
作为一个项目转化的负责人,项目经理人的要求很高。首先得有人格魅力,要有敢承担失败的勇气,有放眼长期的视野;其次要有深厚的技术背景,能够把握技术路线图的发展方向,了解技术的全球发展进度;第三还要有产业眼光,因为最终是要将成果应用到产业中。从某种意义上来说,一旦做成了,项目经理人就应该是成果转化公司的CEO。
我们已经培育了很多技术经理人,目前技术经理人主要服务于技术交易,大部分不会持续跟进;项目经理人陪伴一个项目的周期会更长。但一名优秀的技术经理人与项目经理人的素质要求是类似的,所以存在着转化的可能性。今年浦江创新论坛期间,我们也对外宣布设立技术经理人合伙制,我们从外部的技术经理人中选出一部分人成为东部中心的合伙人,使得他们有条件批量地服务项目,特别是参与重大转化项目的机会。我们希望他们部分优秀的技术经理人能够成长为一名项目经理人,成为创业公司的CEO。
四、
我从事技术转移工作已经十多年,在过去十年里,最大的变化就是科技成果转化的热度提升了。近几年,无论是政策导向还是社会关注度的提升,都是一个天翻地覆的变化。关注度变高、行业变热,是一件好事。造就了越来越多的人跨界进入这个领域,这有利于整个行业的发展,有利于更多成果被转化。有了政策的保障,高校老师的转化意愿也在变强。把自己的项目转化,变成一家公司,产生经济价值,也成为很多高校老师的追求。我们从事技术转移行业的人,职业归属感也在逐渐建立,现在科技成果转化具备了成为一个产业的基础。
如果还有什么需要改善的,我觉得科技成果转化是一个中长期的事情,但我们有时却把短期的数字看得过于重。比如希望达到成交额逐年增长或增长率不断攀升等指标。我觉得只关注统计数据的评价方式不利于科技产业的发展,有些项目在不成熟的时候,就不适合成立公司。假设今天创办了500家公司,但是三年后,这些公司还有多少存活的呢?长期指标也同样重要。我建议还是要依据事物的发展规律,建立更加完善、综合、多维度的评价体系,不能简单地追求数字。
未来十年,我希望能有更多类似东部中心的服务机构出现,多元主体的参与,服务能力就会更强,专业性也会增强,才能更加规模化高质量推动科技成果转化。
希望有一天,我们在总结的时候能说,我们培养的技术转移人才参与了多少个项目转化。这些项目中有多少成为了影响世界、改变世界格局的项目,DARPA模式那2%成功改变世界格局的项目中,哪怕只有2%是我们深度推动的,我也会觉得很有成就感,因为那是在改变世界科技格局,而不仅仅是推动某一个企业的技术升级。
在过去的一周内,Sora App已经成为AI应用的新热门。据TechCrunch10月8日报道, Sora在推出的前 7 天内获得了627000次iOS下载,这一数据已经超越了ChatGPT当初的数据。
SoraiOS应用商店下载量。来源:Appfigures Intelligence
据了解,Sora App在上线首日便创下56000次安装量,迅速攀升至美国App Store总榜第三名。截至10月3日,该应用已成功登顶榜首。这一爆发式增长不仅让Sora的首秀超越Anthropic公司的Claude、Microsoft的Copilot等主流AI应用,更与xAI公司推出的Grok应用形成直接竞争。
Sora App由OpenAI于上月底发布,同时发布的还有Sora 2模型。据OpenAI官方介绍,2024年2月的初代Sora模型在许多方面标志着视频生成的“GPT-1时刻”,此次推出的2.0模型更好地遵守物理定律,直接迈入视频领域的“GPT-3.5时刻”。
采用全新Sora 2视频模型的Sora App,让非专业人士能更容易地制作复杂的视频,包括超现实或奇幻的内容。加州大学伯克利分校的电气工程和计算机科学教授哈尼·法里德(Hany Farid) 在接受美国哥伦比亚广播公司(CBS News)采访时指出:“你只受到想象力的限制。”
10 月 8 日,OpenAI首席执行官Sam Altman现身a16z播客,首次全面阐释了 OpenAI 的战略方向:“AI 的入口,不再是对话框,而是生成一整段画面,甚至帮你先想一步。”
然而,人工智能视频的出现也加剧了人们对低质量“人工智能垃圾”可能泛滥的担忧,其中包括可能被误认为真实内容的深度伪造(Deepfake)内容。
虽然OpenAI详细介绍了该公司对Sora 2采取的一些措施,以限制潜在有害内容的产生并帮助用户区分 AI 内容。但AI深度伪造内容如今已遍地开花。更令人意外的是,用户甚至开始用AI技术伪造已故名人的肖像,这直接引发已故演员罗宾·威廉姆斯之女泽尔达·威廉姆斯的抗议,她公开呼吁大家停止发送其父亲的AI合成照片。
同时,Sora 2也引发了影视行业专业人士的担忧。“自Sora 2发布以来,侵犯我们会员电影、节目和角色的视频在 OpenAI 的服务和社交媒体上激增,”美国电影协会主席兼首席执行官查尔斯·里夫金(Charles Rivkin)表示,“虽然OpenAI澄清称将‘很快’让版权方对角色生成拥有更多控制权,但他们必须承认,防止Sora 2服务侵权的责任仍在于他们,而非版权方。OpenAI需要立即采取果断行动来解决这个问题。”
在最近另一场有关使用人工智能的争议中,荷兰制片人兼喜剧演员埃琳娜·范德维尔登(Eline Van der Velden)最近发布了一个人工智能生成的女演员,引发了好莱坞的强烈反对。美国演员工会回应称,“创造力应该仍以人类为中心。”
“我认为一场颠覆即将到来,将会有一些破坏和创造,”法里德说,“我认为这不仅仅是针对电影和音乐行业——它将影响到很多行业。”