刘知远详解DeepSeek出圈背后的逻辑:自身算法的创新以及OpenAI的傲慢

·AI如果想要真正赋能全人类,让每个人都能够用得上、用得起大模型和通用人工智能,那么高效性显然是一个非常重要的命题。

·我们认为智能革命显然也要走过一条类似于信息革命的阶段,不断去提高能力密度,降低计算成本,让大模型得以更加普惠。

“DeepSeek R1的开源,让全球的人能够意识到深度思考的能力。这相当于让整个人工智能领域再次迎来了类似于2023年初ChatGPT的时刻,让每个人感受到大模型的能力又往前迈进了一大步。但同时,我们也需要合理地评估DeepSeek本身的重要意义。”清华大学长聘副教授刘知远日前在参与由中国计算机学会青年计算机科技论坛(CCF Young Computer Scientists & Engineers Forum,YOCSEF)策划的直播活动中表示,这场直播的主题为“夜话DeepSeek:技术原理与未来方向”,共同参与话题讨论的还有复旦大学教授邱锡鹏、清华大学教授翟季冬等。

直播截图

在这场直播中,刘知远分析了DeepSeek成功出圈带来的启示,并分析了大模型技术未来发展的趋势。刘知远认为,DeepSeek V3展示了如何用十分之一甚至更少的成本完成达到GPT-4和GPT-4o水平的能力,此外DeepSeek R1的出圈也证明了OpenAI犯了“傲慢之罪”——它不开源,不公开技术细节,且定价过高。

以下为刘知远在直播中的观点实录,经本人同意发表:

今天我将从宏观角度为大家介绍DeepSeek R1所代表的大规模强化学习技术,及其基本原理。同时,我们也会探讨为什么DeepSeek R1能够引起如此多的关注。

首先,我们来看DeepSeek最近发布的R1模型,它具有非常重要的价值。这种价值主要体现在DeepSeek R1能够完美复现OpenAI o1的深度推理能力。

因为OpenAI o1本身并没有提供关于其实现细节的任何信息,OpenAI o1相当于引爆了一个原子弹,但没有告诉大家秘方。而我们需要从头开始,自己去寻找如何复现这种能力的方法。DeepSeek可能是全球首个能够通过纯粹的强化学习技术复现OpenAI o1能力的团队,并且他们通过开源并发布相对详细的介绍,为行业做出了重要贡献。

我们可以大致总结了DeepSeek R1的整个训练流程,它有两个非常重要的亮点或价值。首先,DeepSeek R1创造性地基于DeepSeek V3基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型,即DeepSeek-R1-Zero。这具有非常重要的价值,因为在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。DeepSeek能够实现大规模强化学习的一个重要技术特点是其采用了基于规则(rule-based)的方法,确保强化学习可以规模化,并实现面向强化学习的扩展(Scaling),这是它的第一个贡献。

DeepSeek R1的第二个重要贡献在于其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域,还能创造性地将强化学习带来的强推理能力泛化到其他领域。这也是用户在实际使用DeepSeek R1进行写作等任务时,能够感受到其强大的深度思考能力的原因。

这种泛化能力的实现分为两个阶段。首先,基于DeepSeek V3基座模型,通过增强推理过程的可读性,生成了带有深度推理能力的SFT(Supervised Fine-Tuning,监督微调)数据。这种数据结合了深度推理能力和传统通用SFT数据,用于微调大模型。随后,进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型,即DeepSeek R1。

因此,DeepSeek R1的重要贡献体现在两个方面:一是通过规则驱动的方法实现了大规模强化学习;二是通过深度推理 SFT数据与通用SFT数据的混合微调,实现了推理能力的跨任务泛化。这使得DeepSeek R1能够成功复现OpenAI o1的推理水平。

所以,我们其实应该非常重视DeepSeek R1。它由于开源,让全球的人能够意识到深度思考的能力,这相当于让整个人工智能领域再次迎来了类似于2023年初ChatGPT的时刻,让每个人感受到大模型的能力又往前迈进了一大步。但同时,我们也需要合理地评估DeepSeek本身的重要意义。

如果说2023年初OpenAI发布的ChatGPT让全球看到了大模型非常重要的价值,那么这一次的强推理能力其实也是OpenAI在2024年9月发布的o1率先实现的。而DeepSeek R1,我们认为它在历史上更像是2023年Meta的LLaMA。它能够通过开源复现,并且把这些事情全部公开给全球,让大家能够快速地建立起相关能力,这是我们对DeepSeek R1及其重要意义的一个准确认识。

当然,为什么说DeepSeek R1能够取得如此全球性的成功呢?我们认为这与OpenAI采用的一些策略有非常大的关系。OpenAI 在发布o1之后,首先选择不开源,其次将o1深度思考的过程隐藏起来,第三是o1本身采用了非常高的收费。这使得o1无法在全球范围内让尽可能多的人普惠地感受到深度思考所带来的震撼。

而DeepSeek R1则像2023年初OpenAI的ChatGPT一样,让所有人真正感受到了这种震撼,这是DeepSeek R1出圈的非常重要的原因。如果我们进一步将DeepSeek发布的R1和之前的V3结合起来考虑,那么它的意义在于:在非常有限的算力资源支持下,通过强大的算法创新,突破了算力瓶颈,让我们看到即使在有限的算力下,也能做出具有全球意义的领先成果。

这件事对中国AI的发展具有非常重要的意义。当然,我们也应该看到,AI如果想要真正赋能全人类,让每个人都能够用得上、用得起大模型和通用人工智能,那么高效性显然是一个非常重要的命题。

而在这个方面,我们其实有非常多的话题可以去讨论。除了刚才我和邱锡鹏老师提到的强化学习本身需要在未来探索更加高效的方案之外,我们还需要研究出更加高效的模型架构。例如,V3所采用的MoE架构,未来应该也会有许多其他相关的高效架构方案。进一步地,国浩和翟季冬老师稍后也会介绍高效的算力应用等话题。

这其实也是DeepSeek V3和R1带给我们的另一个非常重要的启示。我们也会认为,整个人工智能的发展在未来追求高效性是我们内在的一个使命和需求。

从这个方面,我想适当展开一点来介绍。我们会看到上一次所谓的科技革命,也就是信息革命,其非常重要的内核实际上是计算芯片的发展。在过去80年时间里,计算机从最初需要一个屋子才能装得下的规模,发展到如今每个人手边都有的手机、PC,以及各种各样的计算设备,都可以在非常小的设备上完成非常强大的计算能力。

所有这一切,其实都源于芯片行业在摩尔定律的指引下,不断推进芯片制程,提升芯片电路密度,从而实现计算设备的小型化和普惠化,推动算力的普及。这显然是我们未来追求高效性的一个非常重要的内在需求。

这也是为什么我们在去年特别强调要发展大模型的能力密度。实际上,过去几年我们也能看到类似摩尔定律的现象:大模型的能力密度正以时间的指数级增强。从2023年以来,大模型的能力密度大约每100天翻一倍,也就是说,每过100天,我们只需要一半的算力和一半的参数就能实现相同的能力。

因此,我们相信,面向未来,我们应该不断追求更高的能力密度,努力以更低的成本——包括训练成本和计算成本——来实现大模型的高效发展。 从这一点来看,我们显然可以看到,如果按照能力密度的发展趋势,我们完全可以实现每100天用一半的算力和一半的参数,达到相同的模型能力。而推动这件事情,应当是我们未来发展的使命。

所以,如果我们对标上一个科技革命——也就是信息革命,显然对我们即将到来的智能革命有着非常重要的启示。实际上,在信息革命刚刚开始的时候,IBM的创始人沃森曾认为,世界上不需要超过五台主机就可以满足全世界的计算需求。但到了今天,我们可以看到全球有数十亿、上百亿的计算设备在服务于全人类的社会。

因此,我们认为智能革命显然也要走过一条类似于信息革命的阶段,不断去提高能力密度,降低计算成本,让大模型得以更加普惠。所以,我们会认为AI时代的这些核心引擎,包括电力、算力以及大模型所代表的智力,这种密度定律应该是普遍存在的。我们需要不断地通过高质量、可持续的方式去实现大模型的普惠,这应该是我们未来的发展方向。

面向未来,我们认为人工智能有三大主战场,它们的目标都是让通用人工智能达到顶尖水平。首先,我们要探索人工智能的科学化技术方案,实现更科学、更高效的人工智能实现方式。其次,我们要实现计算系统的智能化,能够在计算层面以更低的成本、更通用地将大模型应用于各个领域。最后,我们也要在各个领域探索人工智能的广谱化应用。

以下是观众提问环节:

OpenAI犯了“傲慢之罪”

Q: DeepSeek的成功因素里,最有亮点的一个技术是什么?

刘知远:我觉得主要有两条启示:DeepSeek V3给我们的重要启示在于,它展示了如何用1/10甚至更少的成本完成达到GPT-4和GPT-4o水平的能力。DeepSeek V3在底层算力加速方面做了大量工作。但更重要的是,翟老师特别强调了DeepSeek V3实现了算法和底层软硬件的协同优化。这种一体化优化机制让大家看到,即使成本已经很低,但仍然可以通过优化进一步降低成本。虽然V3的成本仍然是几百万美元甚至几千万美元,但相比国际上公认的水平,已经低得多。这也是英伟达股价下降的一个重要原因。

DeepSeek R1的启示在于,OpenAI犯了“傲慢之罪”——它不开源,不公开技术细节,且定价过高。而DeepSeek的R1则开源且免费,让全球用户都能使用,并且公开了所有技术细节。这使得DeepSeek在历史上占据了原本应该属于OpenAI的位置,就像当年的ChatGPT一样。DeepSeek通过极致优化有限资源,成功追赶上了国际最先进的模型,我觉得干的非常漂亮,并且通过开源让全球都认识到中国团队的创新能力。

Q:为什么DeepSeek的 R1模型在这个时间点出现?之前有没有基于基础模型直接做强化学习的尝试?之前也有模型在思维链上做过类似工作,为什么DeepSeek的R1模型会如此出圈?

刘知远:我觉得这件事情还是具有一定的必然性。大概在2024年的时候,很多投资人,甚至一些不从事人工智能领域的人,会来问我:中国的AI和美国的AI相比,到底是差距变大了还是变小了?我当时明确表示,我们认为中国正在非常快速地追赶,与美国最先进的技术之间的差距正在逐渐缩小。尽管我们面临一些限制,但这种追赶是显而易见的。

一个重要的现象可以验证这一点:2023年初ChatGPT和后面GPT-4发布后,国内团队复现这两个版本的模型大概都花了一年时间。2023年底,国内团队复现了ChatGPT水平的模型能力;2024年四五月份,一线团队复现了GPT-4水平的能力。但随后你会发现,像Sora、GPT-4o这样的模型,基本上都是国内团队在大约半年内完成复现的。这意味着,像o1这样的模型能力,国内团队在半年左右复现是可预期的。

DeepSeek本身非常出色,其价值不仅在于能够复现,还在于它以极低的成本做到了这一点。这是它的独到之处,也是它脱颖而出的原因。但无论如何,国内一线团队能够在半年左右复现o1水平的模型能力,我认为这是可以预期的。DeepSeek能够更快、更低成本、更高效地完成这项工作,这是它的巨大贡献。从这个角度看,我认为有一定的必然性。

当然,DeepSeek能够达到这样的出圈效果,也离不开它自身团队的长期积累,这正如刚才邱锡鹏老师提到的那样。

Q:(评论区问题)刚刚知远老师 PPT 里提到的能力密度是如何定义的?它的内在原因是什么?

刘知远:这个“能力密度”的概念是我们最近半年提出的。关于如何有效地、准确地衡量能力密度,大家可以参考我们发表在arxiv 上的论文,论文题目是《Densing law of LLMs》。

所谓的能力密度,可以理解为模型在各种评测集上展现出来的能力,除以其参数规模,或者说是激活的参数规模。我们观察过去一年半发布的代表性模型,发现其能力密度大约每100天增加一倍。这意味着每过100天,我们可以用一半的参数实现相同的能力。这一现象背后有多个因素影响:

·1数据质量:更高的数据质量取决于数据治理。高质量的数据能够提升模型的训练效果。

·2模型架构:采用更稀疏激活的模型架构,可以用更少的激活参数承载更多的能力。

·3学习方法:包括OpenAI在内的所有一线团队都在开展所谓的“scaling prediction”。在真正训练模型之前,我们会进行大量的风洞实验,积累各种预测数据,以确定模型需要什么样的数据配比和超参配置,从而达到最佳效果。

综合这些因素,模型可以用更少的参数承载更多的能力。我们将这一现象类比为芯片行业的摩尔定律。摩尔定律告诉我们,每18个月,芯片上的电路密度会增加一倍。这一过程是通过不断的技术发展实现的。

进一步结合刚才翟老师和国浩老师提到的底层算力优化,我们可以将这种优化映射到模型训练阶段,从而极大地降低成本。当然,我们并不是说DeepSeek的算力可以用1/10的成本实现与国外模型相同的能力,但这与Densing law(能力密度定律)有一定的重叠。

Densing Law更多地强调模型密度的不断提高,这不仅体现在训练阶段成本的降低,也体现在推理阶段。模型可以用更低的推理成本和更快的推理速度完成相同的能力。我们认为,未来AI的发展一定会沿着这条路线前进。过去几年的发展也在不断验证这一点。一个直观的体验是,像OpenAI这样的公司,其API模型的价格(例如 ChatGPT 水平的模型和GPT-4水平的模型)在过去几年中快速下降。这不仅仅是因为价格战,而是因为它们可以用更少的资源实现相同的能力,从而以更低的成本提供服务。

我们认为,高效性是未来AI发展的一个重要方向,也是我们迎来智能革命的一个重要前提。

Q: MoE架构会是通向AGI道路上的最优解吗?

刘知远:我的个人感觉是,其实没有人永远是对的。

在2023年初,OpenAI发布ChatGPT时,它做对了;它发布GPT-4时,也做对了。但当它发布o1时,它做错了——它没有开源,定价策略也出现了失误。这反而成就了DeepSeek。我也不认为DeepSeek选择了MoE架构,MoE就永远是正确的。没有任何证据证明MoE是最优的模型架构。

从学术角度和AI未来发展的角度来看,我认为这是一个开放性的问题。未来如何实现高效性?我认为一定是模块化和稀疏激活的,但具体如何稀疏激活、如何模块化?我觉得这件事情本身应该是百花齐放的。我们应该保持开放性,鼓励学生和从业者像DeepSeek一样努力去探索创新。

所以,我本身不太认为MoE有任何绝对的壁垒,或者它一定是最优的方法。

DeepSeek所做的工作可能也是“摸着OpenAI过河”

Q:DeepSeek技术的爆发,对于中国大模型未来发展道路有哪些启示?

刘知远:首先,我觉得特别值得敬佩的是DeepSeek团队的技术理想主义。因为无论是看他们的访谈还是其他资料,你会发现,那些访谈其实是在DeepSeek大火之前很久接受的,内容非常真实,能够反映他们内在的底层逻辑。从这一点上,我们可以感受到DeepSeek是一个非常具有技术理想主义的团队,以实现 AGI 作为梦想来组建这个团队。我觉得这一点是非常值得敬佩的。

我觉得同时也会看到,DeepSeek的梁文峰之前做量化投资,本身投入自己的资金来开展项目,没有资金上的困扰。那么相对应地,我觉得中国应该为这样的技术理想主义团队提供支持,哪怕他们没有足够的资金,也能让他们没有后顾之忧地去进行探索。我觉得中国已经到了这样的阶段,需要有更多像DeepSeek这样的团队,但又不像DeepSeek这样有资金。能否让他们踏踏实实地去做一些原始创新,做一些出色的工作,这是我觉得非常值得我们思考的第一点。

第二点,我觉得是他们的执行力。DeepSeek今年这两个月一炮而红,大家会觉得很厉害,但实际上,这是经过了多年持续积累的结果。我们看到的是他们不断积累的进步,量变最终产生了质变。我可以告诉大家,几年前,幻方就拿着免费算力去吸引我们的学生,与他们建立联系。当然,也有学生毕业后加入了DeepSeek。所以,这是他们多年努力的结果。我认为这也是技术理想主义推动下的长期主义成果。我觉得国内应该有更多的团队,能够坐得住冷板凳,更加聚焦,在一些重要问题上持续发力,做出有意义的工作。

DeepSeek发展到今天,我认为他们所做的工作可能也是在“摸着OpenAI过河”,以OpenAI为榜样,去探索AGI的实现路径,并努力去做他们认为正确的事情。这个过程非常困难,尤其是随着OpenAI变得越来越封闭,o1复现的难度比当年的ChatGPT更大。但我们会看到,只要有理想和执行力,他们就能做到。所以在我看来,国内应该有更多的团队去学习。具体的技术当然是我们应该学习的一部分,但我觉得应该避免认为因为DeepSeek成功了,所以他们所做的一切都是对的。我觉得不一定他们所用的所有技术都是最先进的。我觉得没有必要因为DeepSeek这次成功用了这样那样的技术,就认为它们全都是对的。我觉得这反而会限制我们的创新。我觉得我们应该学习的是他们的理想,学习的是他们的坚持,学习的是他们的方法论。这是我想分享的第二点。

400亿美元!OpenAI巨额融资有望落地,软银要取代微软成最大投资方

孙正义再次加注OpenAI。

当地时间2月7日,据外媒援引知情人士的消息,日本软银集团(SBG)即将敲定400亿美元对OpenAI的首轮投资,投前估值为2600亿美元。

据报道,软银的首笔资金最快将于春季到位,全部资金将在未来12-24个月内分期支付。该笔融资规模将打破OpenAI上一轮创下的硅谷单轮融资纪录。本轮融资后,不仅OpenAI的投后估值将相较上一轮融资后翻倍,达到3000亿美元,软银也将超越微软,成为OpenAI的最大投资方。

当地时间2月3日,软银CEO孙正义与OpenAI CEO山姆·奥特曼会谈。

就在几天之前,软银刚刚与OpenAI达成协议,将在日本成立合资企业“SB OpenAI Japan”,共同打造名为“Cristal(水晶)”的人工智能产品,为企业提供服务。孙正义表示,软银每年将在OpenAI产品部署上投入30亿美元。

前述消息人士称,此次融资的部分资金预计将用于兑现OpenAI对“星际之门(Stargate)”项目的承诺。

“星际之门”启动,奥特曼“全球路演”

美国总统特朗普在1月21日宣布了“星际之门”项目,软银、OpenAI和美国甲骨文公司(Oracle)三家企业将投资5000亿美元,用于建设这一史上最大的AI基础设施投资项目。软银CEO孙正义将担任“星际之门”项目主席,软银承担项目的财务责任,OpenAI负责公司运营,并自主建设和管理数据中心。

据介绍,项目初始投资为1000亿美元,并计划在未来4年内扩展至5000亿美元,预计将为美国创造10万个就业岗位。

当地时间1月23日,OpenAI CEO山姆·奥特曼(Sam Altman)晒出“星际之门”在美国得克萨斯州首期工厂的视频,第一期已确定在美国得克萨斯州阿比林数据中心基地展开,计划打造10个数据中心。

当地时间2月6日,OpenAI表示正考虑在美国16个州建立数据中心园区,预计每个数据中心园区将创造数千个就业机会,包括建设和运营岗位。但根据最近的报道,“星际之门”在阿比林的首期数据中心只能创造57个就业机会。

除了日本,奥特曼近期还前往了韩国和印度。

2月4日,奥特曼现身韩国,与SK集团董事长会面,又和孙正义一起与三星电子董事长会谈。当天,OpenAI还宣布与韩国最大的社交应用运营商Kakao达成战略合作关系,双方计划共同开发面向韩国市场的AI产品。

奥特曼透露,OpenAI正在积极考虑投资并加入韩国的人工智能计算中心项目,并暗示韩国企业可能会参与“星际之门”项目。

2月5日,印度信息技术部长阿什维尼·维什瑙(Ashwini Vaishnaw)与奥特曼会面,讨论涉及GPU、模型和应用程序的AI战略。

当地时间2月7日,奥特曼又已现身德国,在柏林工业大学参与了AI专题活动。

当地时间2月7日,山姆·奥特曼现身柏林工业大学,

据悉,奥特曼此次“全球路演”还会前往法国、迪拜等地。

DeepSeek震惊硅谷,OpenAI还有“后手”?

OpenAI着急寻求合作和投资,恰逢来自中国的DeepSeek在硅谷引发轰动。

1月20日,中国AI初创公司深度求索推出开源大模型DeepSeek-R1,性能比肩OpenAI o1模型正式版,而训练成本或仅需约600万美元。

如此“物美价廉”,Meta、微软、OpenAI、Anthropic等公司纷纷关注跟进。投资界大佬们也都现身表态,方舟投资(ARK)CEO“木头姐”凯西·伍德表示DeepSeek证明了AI领域成功并不需要那么多钱,加速了成本崩溃;桥水基金创始人瑞·达利欧表示,中国在芯片上或许落后,却在应用上实现了领先,AI竞争比企业盈利更重要,但投资者对AI的狂热助长了美股的“泡沫”,其程度类似于千禧年的互联网泡沫……

奥特曼曾评价称,DeepSeek让OpenAI的领先优势将不会像前几年那么大了,并称个人认为在开源权重模型和研究成果的问题上,OpenAI已经站在了历史的错误一边,需要制定不同的开源策略。

不过,在1月27日的一次采访中,奥特曼表示,DeepSeek的“这种性能并不新颖,我们早已具备这一水平的模型,今后将持续开发更先进的模型”。

2月7日,OpenAI也公开了o3-mini大模型的思维链。不过,与DeepSeek不同,o3-mini的思维链文本并非大模型原始思维链,而是进行过“总结”。对此,奥特曼的解释是,OpenAI正努力整理原始的CoT(思维链)提升可读性,并在必要时提供翻译,尽量保持原始内容的忠实度。

OpenAI大模型o3-mini的思维链文本。

巨额融资和更多的合作方,不仅可以让OpenAI推进算力扩张、模型及智能体(agent)研发,也可以助力其在硬件方面的布局。

OpenAI自2024年底开始已在重组机器人部门,Meta增强现实(AR)眼镜团队前负责人凯特琳·卡利诺夫斯基(Caitlin Kalinowski)已经官宣加入并负责机器人和消费硬件业务。

今年1月末,OpenAI向美国专利商标局提交新的商标申请,涉及人形机器人、XR、智能手表、可穿戴设备等硬件设备。

奥特曼还曾在采访中透露,将与苹果前设计负责人乔尼·艾维(Jony Ive)创立的企业合作,推进开发AI终端,不过公开原型机尚需数年时间。

对于AI开发中不可或缺的芯片,奥特曼表示“公司正在自主研发”,但未透露具体细节。

值得一提的是,当地时间2月4日,OpenAI长期投资的美国机器人初创企业Figure的创始人布雷特·阿德科克(Brett Adcock)宣布将终止与OpenAI的合作。他表示Figure在完全自主研发的端到端机器人AI上已取得重大突破,并将在未来30天内展示一些从未在人形机器人上看到过的东西。

这像极了OpenAI曾与微软达成的协定——一旦达到AGI(通用人工智能)水平,就可以终止与微软的独家合作关系。

OpenAI究竟能否“遍地开花”?外界可以拭目以待。

39元下载软件?上万元教本地部署?谁在利用DeepSeek“信息差”牟利

今年春节,国产AI公司深度求索开发的大模型DeepSeek成为爆款,作为一款开源、免费的大模型,尽管还未实现盈利,但第一批用它“搞钱”的人已经出现了。

2月6日晚上,曾经广受关注的“AI卖课第一人”李一舟在自己直播间兜售创业课程时谈到DeepSeek,称背后有很多创业机会,“这个我就不方便多说了,非常值得大家去学习和使用。”

“如何用DeepSeek赚到100万”“DeepSeek带你躺着赚钱”......在社交媒体上,频频能看到教你如何用DeepSeek实现一夜暴富,在淘宝、闲鱼等平台上,不少商家打着“本地部署”的概念兜售DeepSeek接入教程,标价最高达到10万元,最低仅有0.01元。

澎湃新闻记者查询发现,某热门DeepSeek社区会员费为61元,总会员数超过3600人,在DeepSeek爆红的近一个月里,仅会员费收入就超过18万元。

对于各类利用DeepSeek牟利的投机者,6日晚间,DeepSeek官方发布声明:目前除DeepSeek官方用户交流微信群外,从未在国内其他平台设立任何群组,一切声称与DeepSeek官方群组有关的收费行为均系假冒。

利用“信息差”牟利

DeepSeek最大的特点就是是开源,而在多家电商平台上,有商家公然售卖可以免费下载的DeepSeek软件,并且不加掩饰地告诉记者:“卖的就是信息差。”

无论是元宇宙、Sora还是DeepSeek,每当新一波革命性技术迎来讨论,似乎“卖铲子”的人总是最先挣钱。据新榜数据显示,近7天内,在抖音、快手、B站、小红书、微博、微信等平台上,和DeepSeek相关的内容作品数至少在105万条,日均作品数超15万。

在付费知识社群“知识星球”上,记者搜索到超过百个DeepSeek相关社群,基本内容都是分享DeepSeek相关课程,会员收费从50元到200元不等。

某热门DeepSeek社群收费

不少荐股博主还开发出DeepSeek的炒股功能,在抖音直播间里,记者看到,有博主宣传只要用同花顺等炒股软件接入DeepSeek,就能控制电脑全自动分析股票,在直播间下方还附上了教程和软件的购买链接。记者联系到了其中一位用DeepSeek分析股票的荐股博主,对方称自己已经被封号。

博主在抖音直播间宣传用DeepSeek炒股

除了传统的售卖AI培训课、AI社区付费等套路,售卖DeepSeek本地部署教程成为新的掘金方式,不少商家挂出5万元、10万元高价。

所谓的本地部署,意思是把DeepSeek模型下载到电脑上,然后用电脑的显卡进行推理。闲鱼上一位商家告诉记者,标价5万元是包含主机的价格:“DeepSeek对硬件要求很高,一般普通电脑根本跑不了完整版本。”

“本地部署,精细化AI”“API调用训练”“可以自行投喂数据”在平台上,关于本地部署DeepSeek的教程软件泛滥,从几分钱到几元钱、几十元价格不等,仅凭介绍很难分清有什么区别。

有商家告诉记者,这是因为不同价格售卖的版本不同,价格低廉的大多为蒸馏版DeepSeek,可以进行基础问答但没有推理能力,而满血版DeepSeek需要强大的算力支持,即便付费购买了软件,没有配套的硬件设施也无法运行。

这些商家行为显然就是利用DeepSeek可以本地部署的幌子,真正目的是销售硬件,但性价比对于一般用户而言却无法判断辨别。

AI概念火热,新兴职业涌现

售卖这些五花八门、标价混乱的本地部署课程和软件,是否涉嫌利用DeepSeek非法牟利?

记者查阅DeepSeek官方文件显示,由于是开源大模型,允许本地部署服务,但涉及到商业销售和牟利,就可能涉嫌触犯法律。协议显示,官方提供的模型和工具(如通过Ollama部署)遵循MIT开源协议,协议允许商业使用、修改和分发,但需保留版权声明并明确免责条款。

在遵守MIT开源协议的前提下,第三方提供本地部署技术支持或托管服务是允许的。但若涉及模型权重的商业化销售、未经授权的二次分发,或未履行开源协议义务,则可能构成侵权。

值得一提的是,除了利用DeepSeek赚钱,已经有不少掘金者涌入了AI赛道,例如AI画师、AI视频剪辑、AI文案创作等新兴职业如同雨后春笋一般出现。以某AI绘画社区为例,会员费用为565元,目前共有2万会员,以此初步推算,一年会员费收入就接近千万元。

有AI视频创作者表示,自己利用AI软件春节帮企业制作了以喜庆蛇年为主题的一些短视频,再配上喜庆的歌曲和文字,发布不久后就获得了几万的点击量,挣到了六位数的推广费。也有人通过做AI视频引流,进行橱窗带货,获得了超过8000元的佣金收入。

也有原影视团队转型做AI,以“自然风景+AI”“热门IP+城市地标+AI”的模式,利用AI生成脚本、图片、视频、配音、后期等流程产出成片,在半年内盈利约30万元。

还有人用AI生成文案、用AI作图等,有绘图作者提到,自己通过Midjourney和Stable Diffusion在春节生成了不少AI绘画作品,比如带有福字、舞狮、蛇年等图案的各类壁纸,非常受欢迎。有创业者靠定制AI头像和壁纸的业务,在春节期间收入超10万,“只要抓住机会,这一两年里就能积累巨额财富。”

“目前AI培训领域存在鱼龙混杂、良莠不齐的现象,部分机构缺乏资质,存在夸大培训效果、利用信息差收取暴利费用等情形。”华东政法大学竞争法研究中心执行主任翟巍向澎湃新闻记者表示,依据《反不正当竞争法》《消费者权益保护法》等法律法规,应当对DeepSeek培训领域予以规范和引导,以保障AI培训行业的健康有序发展。

对于突然涌现的大量AI新兴职业,翟巍认为,由于对人工智能投喂的语料(训练数据)可能本身存在侵犯版权、商业秘密或个人隐私情形,因此人工智能生成的作品可能出现衍生的侵犯版权、商业秘密或个人隐私后果。

此外,关于人工智能生成作品的法律属性和权益主体问题,现在缺乏明确的法律规定,这一方面导致利用人工智能生成作品的个人难以依据现有法律主张自身对这些作品享有财产、人格权益,另一方面也导致在人工智能作品侵犯他人权益的情形下,难以确定侵权责任的承担主体。

我国一新成果有望让无人机边飞边充电

我国科学家近期取得一项研究成果,能够让动态无线充电更高效。其未来应用有望让无人机边飞边充电。相关成果近日发表于国际学术期刊《自然·通讯》。

西安电子科技大学电子工程学院李龙教授课题组在无线能量传输和无线定位领域取得突破性进展,构建了一种基于双频超表面的无线传能、感知定位与通信一体化原型系统,实现了自适应追踪的无线能量传输。在这一系统中,超表面不仅实现了精确的目标定位,还能根据实时变化的环境和目标,进行灵活的能量聚焦,实现跟踪式隔空输能。

与传统的无线充电方式相比,该技术具有显著的优势:能够支持多个终端设备在移动过程中进行高效的非接触式无线充电,例如运动中的无人机、智能机器人等,为其提供稳定、高效的电力供应。

据悉,该论文成果以西安电子科技大学为第一单位发表,电子工程学院博士生夏得校为论文第一作者,李龙教授和东南大学崔铁军院士为共同通讯作者。

自主研制,科考+考古!“探索三号”交付启航

今天(12月26日),我国自主设计建造的深远海多功能科学考察及文物考古船“探索三号”在广州南沙正式交付启航。“探索三号”是我国首艘具有覆盖全球深远海探测并具备冰区载人深潜支持能力的综合科考船。

“探索三号”船长约104米、排水量约10000吨,最大航速16节、艏艉双向破冰、续航力15000海里、载员80人。首次完成了全系列极地作业科考操控设备及国内最大水密科考月池系统装备、冰区深海声学探测、通信及定位装备,船舶动力定位系统等国产化技术的攻关和搭载。

在研建过程中,各研究机构、企业和高校等通过对关键核心技术集智攻关,突破了冰区船舶关键设计技术、冰载荷下高精动力定位控制技术、智能船舶控制技术等多项关键技术的垄断瓶颈,使我国载人深潜能力从全海深拓展到全海域。

不完全调查:2024年大家都在用哪些AI软件

2024年,伴随人工智能大模型能力的不断进化,各类AI应用也遍地开花,理解语义、生成高质量文本内容已成常态,AI情感陪伴与人类“共情”,AI助手为几百页英文判决做摘要,视频生成模型的高歌猛进使得AI闯入电影制作领域……如果说2023年是百模大战、千模大战,2024年则是应用之战,新一代的AI技术正在开始进入普通人的工作与生活。

2024年大家都在用哪些AI软件?澎湃科技围绕这个问题展开了一项“不完全调查”。在这份调查中,我们发现一个有趣的现象,那就是“在一部分人还从未尝试过AI应用的同时,另一部分频繁使用AI的人已经着迷于挖掘各类AI应用的价值”,正所谓“越了解越疯狂”,他们应用的AI工具不仅有本土国产,也有很多海外版软件;此外,就年龄段来看,年轻人明显对新技术更加充满好奇。

这是一款由上海秘塔网络科技有限公司2024年初上线的AI搜索工具,受到很多专业人士的青睐,但现在看来,语音互动做得不够。

用户:80后金融科技公司高管、70后律师事务所合伙人

用途:用秘塔收集偏研究类的材料还是比较专业的,用中文询问它国外的研究性论文,它可以检索出相应的英文论文检索,检索准确率较高。因为它的研究功能会索引很多论文,所以回复很有深度。

待提升:虽然秘塔也有语音功能,但语音交互做得不够好,譬如开车时无法与它互动,我希望它搜出结果后能念给我听。此外,它很容易忘记前几轮的对话内容,从而变成了一次性的对话,但我觉得只有实现多轮交互的应用才能变成真正的助手。

秘塔APP的iOS版本和讯飞输入法冲突严重,语音输入经常中断,貌似搜索结果的质量相较之前有所下降。此外,秘塔不支持文件摘要,其实我使用人工智能应用比较多的功能是文件摘要,对境外几百页的英文判决书做摘要后方便我阅读,在这一点上,我觉得目前国内做得比较好的还是Kimi。

国内明星大模型创业企业月之暗面科技有限公司(Moonshot AI)开发的智能助手产品,2023年10月9日首次公开,以长文本的阅读见长,用户相对年轻化。

用户:年龄“30+”的市场运营人员、20岁的大学生

用途:可以阅读长篇pdf、搜索在线信息,可以帮忙列一些SQL(Structured Query Language,即结构化查询语言,是一种用来操作数据库系统的编程语言)逻辑,也可以帮我写一些工作中常用的总结、复盘、自评等文件。

待提升:对于Excel数据和文字的爬取处理效果都很不太行,10以内的简单计数都可能会出现错误,还是不够聪明,特别是在语义理解方面。

另一家国内明星大模型创业公司北京智谱华章科技有限公司推出的AI智能应用。

用户:30岁的自媒体创作者

用途:几乎每天都在用于阅读长篇文档,智谱清言能够理解和生成各种复杂结构的语言,生成的文本流畅自然,在对话和创作方面表现不错。

待提升:在特别专业的知识点方面还有所欠缺。

国内科技大厂字节跳动开发的人工智能工具,貌似用户覆盖了20-40岁的年龄群体。

用户:00后CSDN编辑、30岁的公职人员、40岁的律师

用途:豆包有一个自带的智能体可以进行双语翻译,我们之前开大会有同传翻译的需求,我就带着豆包上阵了。豆包应该也是国内最早做AI浏览器助手的,植入YouTube和Bilibili后,就可以自带双语字幕、视频总结、思维导图等功能。

豆包写的短评形式上像那么回事,能从刑法、民法、行政法等各个角度分析。

待提升:虽然形式是那么回事,但内容空洞,都是语焉不详的大路货,立论浅薄,不能达到发表水平,这也是大多数AI应用存在的共同问题。搜集资料和回答知识性内容时真实性存疑,需要用户自主搜索反复验证。

通义千问是今年4月由阿里云推出的大模型应用。

用户:28岁的自媒体博主

用途:通义千问的语音转录文字、实时字幕识别功能很方便,而且全免费,没有广告。

待提升:只有图文对话,功能比较局限,我更想要语音。

文心一言

文心一言是百度开发的大模型应用。

用户:高校教师、公职人员

用途:极大地减轻了文案撰写、资料整理等工作负担。它能提供丰富的知识和信息支持,帮助我更好地完成教学和研究任务。

待提升:遇到特别专业的问题比如深奥的论文时,有可能会犯迷糊;语言没有什么创意。

ChatGPT

OpenAI公司开发的基于GPT(生成式预训练变换器)模型的自然语言处理应用, 2023年5月ChatGPT的iOS版应用上线,开启了新一代人工智能浪潮。虽然ChatGPT至今尚未在中国落地,但作为大模型的领导者,中国粉丝依然众多,且覆盖群体广泛。

用户:小学教师、媒体工作者、科研人员、大学生

用途:能够提供一些灵感,辅助教学设计,优化教学内容和方式;也能够支持撰写学术文章时的润色,撰写格式类稿件,还可以生成代码、绘制图片,总之提高了工作效率。

待提升:对专业术语和细分领域知识的理解深度还不够;数据处理和分析能力也不强;最好能增加多模态交互功能,例如结合图像和视频分析等;如果长期使用后,能进一步强化对个人偏好和需求的适配能力就更好了。

中国用户使用不方便,中文语料库相对欠缺,生成的中文文本带有明显的西方逻辑思维;收费也蛮高的。

Midjournery

Midjournery是美国大模型创业公司发布的一款AI绘画工具。

用户:32岁UI/视觉设计师、大学生

用途:其功能在持续更新,生成的图片质量较高,基本能满足非艺术专业的需求,且水平稳定,操作简单,用文本输入即可生成图片,操作上的学习成本较低,且可以一次生成多个版本供选择。

待提升:希望可以用语言控制修改;费用依旧较高(最低级别会员10美元/月)且有使用次数的限制,低级别会员生成的图片分辨率较低,且对中文的理解不如英文。

Claude

美国人工智能初创公司Anthropic 10月推出升级版的Claude 3.5 Sonnet模型

用户:00后CSDN编辑

用途:今年Claude 3.5 Sonnet出来后体验上带来很大颠覆,以前让各种AI模型写文章都会缩减篇幅,哪怕让它分几次输出,到后面也会越来越缩水,但Claude的Artifacts功能可以单独开一个小窗口让它写文章,避免了这种情况。以前用ChatGPT聊着聊着它就把上下文忘光了,但Claude的底层逻辑是会在每次输入时把同一个窗口的所有资料内容全部重新看一遍,理解力很强。

待提升:只能说英文使用比中文效果好。

Runway

AI视频公司Runway推出的一款AI视频应用。

用户:32岁摄影师

用途:每天都在使用,可以合图生成,生成质量稳定,更新较频繁。

待提升:价格太高,生成时间较长。

2024是AI应用大爆发的一年,但事实上还没有哪一款软件完全占领了消费者市场,相信在接下来的2025年伴随着技术的不断完善,用户的体验也将得到提升,我们仍然可以期待更多更好用的AI软件登场。

2025年可以用哪些AI工具做视频

百亿上海未来产业基金登场:挖掘一批新型科技投资人,培育一批新型科技创业者

今日的决心选择了后天的命运,如何让中国创新引领全球科技,布局未来产业成为今天中国推动科技产业引领世界的必经之路。

过去,我们习惯了“1到10、1到100”跟随式创新,今天,中国更需要的是“从0到1”原创式创新。原创式创新从哪里来,如何为“从0到1”修路架桥,从而建立起全新的“从0到100”的科技生态链?

2024年9月,上海宣布成立首个百亿级未来产业基金,作为上海未来产业基金的管理人,上海未来启点私募基金管理有限公司总经理魏凡杰一直在琢磨这个问题,“未来基金要解决一个什么问题?我们其实之前也没有完全想明白。”

2025年1月7日,在上海未来产业基金完成备案注册当日、品牌正式发布前夕,作为未来产业基金总经理的魏凡杰对澎湃科技说,“现在我们已经完全想明白了,我们就做一件事,就是怎么样把中国投入了众多科研经费的科研成果和产业界的联系建立起来,把‘0到1’真正地衔接起来。”

魏凡杰强调,做成这件事关键要支持一批年轻人,包括年轻的投资人、年轻的科学家、年轻的创业者,构建起新型科创生态,全方面赋能科创企业,进而托举起中国的未来产业。

1月8日,上海市政府副秘书长尚玉英、上海市科委主任骆大进、上海国投公司董事长袁国华共同启动上海未来产业基金品牌。

探索科技成果转化无人区,孵化中国的Flagship

中国缺乏原创式创新,在魏凡杰看来,这其中既有参与者的认知因素,也有时代机遇的流转。“过去40年里,中国投入科研的经费并不少,但基础研究基本都在高校、研究机构中,写成论文就结束了;在产业界的科技创新中,原创的比例是很小的,中国的很多所谓创新其实是来自模仿和学习。”

真正的颠覆式创新需要10年甚至20年时间的积累,这类研究绝大多数都在大学或研究所里。中国要成为一个真正的创新大国,需要把这部分颠覆式创新技术挖掘出来利用到产业中。但当下企业一般最多会做未来五年能用到的技术研究作为储备。

“这就导致和国外相比,中国工业界跟学术界之间的联系很少,中国的工业界也接不住学术界的原始创新成果。”魏凡杰说。

在美国,投资机构Flagship孵化了全球制药巨头莫德纳公司,是投资科学、科学变产业的典型案例。而在中国,以往众多成功的投资案例来自于投资人对于商业模式的选择,投资人普遍缺乏将科学变成产业的能力。

此外,对于早期投资来说,很多投资基金在操作上也存在难度。投资“1到10,10到100”的基金每次出手起码都是千万级别,但“0到1”的技术孵化项目最初并不需要太多资金,几百万元可能就够了。虽然今天“投早、投小、投硬”成为了众多基金投资人在演讲时的口号,但真正愿意为此付诸行动的并不多,原因在于投早期需要管理更多的项目,更长时间的等待,以及除了资金之外,需要给予更多包括人才、组织管理、供应链等等资金以外的支持。

毕业于北京大学物理学专业和多伦多大学材料工程的魏凡杰,在此之前已经从事了多年的科研成果转化工作。2017年,当投资人都在投资互联网企业,魏凡杰的团队已经在布局硬科技投资。在担任北京科创基金执行总经理的7年多时间里,他几乎天天和科学家打交道。多年的科技成果转化经历让他清晰看到科技成果转化的难点和痛点,“科学家往往贡献的是从0到1的科研成果,越往产业化之路纵深推进,技术对商业能否成功的决定因素比例会逐渐降低。”

虽然难点和痛点显而易见,但在魏凡杰看来,现在已经来到了探索科技成果转化,推动“从0到1”原创式创新的最好时机。

一方面是政府支持的革新。推进中国式现代化,科技要打头阵,新一轮的科技革命和产业变革浪潮中,带动性极强、发展潜力巨大但又需要长期研发投入和持续积累的硬科技,正在成为各个国家争相布局的主战场。另一方面科技迭代进程的加快,科技公司组织管理方式的差异,风投孵化模式的创新以及人工智能的催化,都使得打通产业界与学术界的联系、促成科技创新成果转化变得越来越有必要,这对于推动中国科技强国战略来说非常重要。

去年9月,上海设立首个百亿级未来产业基金,总规模100亿元,由上海市财政全额出资,基金期限长达15年,可根据情况申请延长3年。

“我们是耐心资本,我们要推动中国'从0到1'的科技成果转化的探索,我们希望未来有无穷的可能性。”在1月8日举行的上海未来产业基金投资策略及品牌发布会上,魏凡杰作出上述表示。“孵化中国的Flagship”,是魏凡杰对于上海未来产业基金定位的另一个更为直接的解释。

上海未来产业基金管理人魏凡杰。

挖掘和培育一批年轻科学家、投资人、创业者

未来产业基金将采用“直接投资+子基金投资”模式,但无论是对于子基金的选择还是投资项目的选择,都离不开对人的选择。在当日发布会上,魏凡杰表示,除了要成为真正的耐心资本,也希望基于上海未来产业基金构建全球化的人才社区。当日,发布会汇聚了来自国内脑机接口、量子计算、人工智能、生命科学等各类前沿科学领域的顶级科学家、创业者,以及投资人。

100亿元的未来产业基金规模是限定的,对于未来产业基金来说,更重要的作用是撬动起更多的社会资源,让更多人听到未来产业基金吹响的创新号角,并投身其中。

魏凡杰说,未来产业基金将以人为核心,通过母基金的纽带把科学家、企业家、创业者、项目经理人和投资人的顶尖智力与能力在同一个平台上打通。在他的工作计划中,未来产业基金要建立战略科学家委员会、科技项目经理人投研团队和概念验证经费联动投入等机制,完善从源头发现到产业转化的链路。

其中,战略科学家委员会负责战略性研判未来产业方向,发现前沿领域优秀投资对象。“我们不会什么未来产业都干,更多是有一个方向值得干,我们就重仓。我们跟投资人、战略科学家一起看方向,比别人更早看到信号,提前布局。”

以往的投资模式不适用于科技成果转化,在魏凡杰看来,传统的风险投资人也不适合投资未来产业,未来产业基金要发掘一批在细分科技领域具备认知的年轻的专业投资人,建立起全新的投资理念。

“我们已经进入了中国科技成果转化无人区,我们在探索很多新东西。”魏凡杰表示,以概念验证经费联动投入机制为例,很多论文发布后要经历做实验的“原型机”阶段,国家投入了巨额的科研经费,但因为缺乏具备市场化判断能力的机构和投资人参与,使得项目转化成功率不高。

为了提高科技成果转化效率,可以让投资人参与概念验证项目,既给了投资人投资的机会,也考验投资人的眼光,因为参与的投资人也需要真刀实枪掏钱投入其中。“投资人愿不愿意投?投资人愿意投政府就投。如果干成了,财政资金可以将部分超额收益让利给投资人。”

未来产业基金的一个重要工作就是要找到和培育最优秀的投资人。魏凡杰相信未来中国的风险投资将涌现一批小而美、小而精的专业投资人,这些投资人具备高学历和科学认知,能够及早发现有潜力的早期创新项目,能够和科学家、创业者对话,聚焦深度孵化,为项目赋能。

有了科学家和投资人,“从0到1”,从学术走向产业,还有不可或缺的企业家。由于和太多科学家打过交道,魏凡杰深知运营一家公司需要的能力常常是科学家所不具备的,科技项目经理人也是打造科创生态中和科学家、投资家同等重要的一类人才。未来产业基金正在筹划的科技项目经理人投研团队,便是负责支撑项目布局策划,协同各类资源,推进项目的概念验证、落地孵化和产业化等各类工作的重要角色。科技项目经理人如果能顺利将科研成果转化成公司,他也自然可以成为科创公司的管理者。依托母基金平台,与高质量孵化器、新型研发机构、风险投资机构等合作构建上海创业者社区,挖掘企业家人才。

在这一过程中,未来产业基金希望能支持更多年轻的科学家、创业者和投资人,构建全新的科创生态。“年轻一代会颠覆上一代,永远要相信年轻人的潜力。”魏凡杰对澎湃科技说,他相信未来上海一定能够建立从0到1、从1到100的更加健康可持续的科技创新生态系统,促进创新源头的优秀成果转化为新质生产力。

多名科学家及多项成果获中国科学院2024年度杰出科技成就奖

今天(16日)中国科学院在北京表彰获2024年度中国科学院杰出科技成就奖的科学家和科研成果。

中国科学院物理研究所陈立泉院士、中国科学技术大学陈仙辉院士获个人成就奖,

“银河系早期形成与演化”等4项成果获基础研究奖,“大规模压缩空气储能新技术与应用”等5项成果获技术发明奖,

“黑土区耕地退化阻控与地力提升关键技术”等5项成果获科技攻关奖。

据了解,获个人成就奖的陈立泉院士自1976年起就从事并坚守锂电池研究,在我国最早开展锂电池基础研究和技术攻关,为我国锂电池从无到有、从“跟跑”到“领跑”作出了奠基性贡献。另外一名获个人成就奖的陈仙辉院士长期从事量子材料领域研究,在笼目超导体、界面超导、磁性拓扑绝缘体等前沿领域持续做出引领性工作。

2024年,为贯彻国家科技奖励改革精神,中国科学院修订了《中国科学院杰出科技成就奖励条例》,强化奖励导向,设立4个奖项实行分类评价。个人成就奖主要奖励长期活跃在科技前沿、取得重大创新成就、对相关学科领域发展作出卓越贡献的杰出科学家;基础研究奖旨在激励在基础研究和应用基础研究方面取得重大科学发现和原始创新成果;技术发明奖旨在激励在应用研究和技术开发方面获得高价值知识产权,通过推广应用取得显著经济效益、社会效益或生态效益;科技攻关奖旨在激励在国家重大科技攻关任务中突破关键核心技术,在解决国家重大战略需求或保障国家安全方面发挥关键作用。

MiniMax发布新一代开源模型,首次大规模实现线性注意力机制

1月15日,澎湃科技(www.thepaper.cn)获悉,AI独角兽企业MiniMax上海稀宇科技有限公司(以下简称“MiniMax”)发布并开源新一代01全新系列模型。该系列模型包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax称该系列模型可以实现高效超长文本输入。MiniMax认为,2025年将是Agent高速发展的关键年份,无论是单Agent系统还是多Agent系统,都需要更长的上下文来支持持续记忆和大量通信。

据了解,MiniMax-01系列模型首次大规模实现线性注意力机制,传统Transformer架构不再是唯一的选择。

MiniMax-01系列模型核心性能在多项任务评测结果显示结果

目前领先的大语言模型大都基于Transformer架构,而Transformer核心的自注意力机制是其计算成本的重要来源。为了优化计算效率,MiniMax研究社区提出了稀疏注意力、低秩分解和线性注意力等许多技术。通过使用线性注意力,原生Transformer的计算复杂度可从二次复杂度大幅下降到线性复杂度,在处理长输入的时候具有非常高的效率。

据了解,该模型的参数量高达4560亿,其中单次激活459亿。模型综合性能比肩海外顶尖模型,同时能够高效处理全球最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

MiniMax认为,2025年将是Agent高速发展的关键年份,无论是单Agent系统还是多Agent系统,都需要更长的上下文来支持持续记忆和大量通信。MiniMax-01系列模型的推出,正是为了满足这一需求,迈出建立复杂Agent基础能力的第一步。

此外,MiniMax声称受益于架构的创新、效率的优化、集群训推一体的设计以及内部大量并发算力复用,得以用业内最低的价格区间提供文本和多模态理解的API,标准定价是输入token1元/百万token,输出token8元/百万token。

目前,MiniMax-01系列开源模型已应用于MiniMax旗下产品海螺AI,并在全球范围内上线,企业与个人开发者可前往MiniMax开放平台使用API。

对话OpenAI前全球商业化负责人:效率、多模态、Agent是2025年AI的三大关键词

过往的2024年,AI在投融资市场呈现火热的趋势,美国“科技七巨头”市值增长了6万亿美元,类似OpenAI、Perplexity、xAI和Anthropic等AI明星企业都在2024年下半年频频传出新的融资消息。

和海外热火朝天的投资相比,中国AI市场经过两年的投入,行业竞争加剧,有不少创业公司开始扛不住大模型预训练消耗的资金和精力。2025年伊始,零一万物被曝其超大模型已经交由阿里训练,零一万物负责小参数、适中的行业模型。其创始人李开复对此回复称,“大家都看得很清楚,只有大厂能够‘烧’超大模型。”

“我不认为AI的价值在于专注开发模型,更重要的是应用,制胜之道是构建出更具有性价比、让每个人都能使用的平台和应用程序。”近日,OpenAI前全球商业化负责人、人工智能与商业战略专家Zack Kass在接受澎湃科技(www.thepaper.cn)专访时表示。

OpenAI前全球商业化负责人、人工智能与商业战略专家Zack Kass

Zack Kass认为,在过往的一年,AI价格变得更加低廉是显而易见的,这意味着仅专注模型本身和技术变化是不够的,让AI变得更加有性价比是一个发展趋势。对于中国AI初创公司来说,最应该关注的是将消费者应用程序变得更好、更高效、更具有性价比。

在Zack Kass看来,效率、多模态与AI Agent将是2025年AI的三大关键词。效率将推动AI技术的大众化,多模态将拓展AI的应用场景,而AI Agent则有望彻底改变软件行业的盈利模式。

【以下对话全文】:

AI正迅速变得更具有性价比

澎湃科技:就2024年AI整体的发展,你观察到哪些趋势性的变化?

Zack Kass:一方面我认为,其实人们并没有注意到人工智能对每个人的日常生活有多大的改善,仍在追问“AI泡沫”;另一方面,AI的价格迅速下降,这让我意想不到。这意味着,模型和技术变好是不够的,还要让它变得便宜。

成本的大幅降低意味着技术的可获取性大大提高,这在历史上往往预示着一场新经济的爆发式增长。当关键资源变得廉价时,通常会带来巨大的积极变化,我们希望AI尽可能便宜,这是一个大的趋势。

这个趋势对中国来说尤其有趣,这些模型的压缩使得它们能够以非常低廉的成本进行推理,从而实现技术的普遍平等。在这种情况下,我们实际上无法限制技术的获取。随着模型成本的持续降低,“单一模型提供商可以控制世界”的观点也站不住脚。

现阶段,依然很多人在警惕AI泡沫,认为过度夸大了人工智能的重要性,但我的看法是,现阶段人们还没有完全意识到人工智能真正的潜力。

澎湃科技:最近创新工场的联合创始人李开复在接受媒体采访时说,未来零一万物将不再追求训练超级大模型,创业公司投资大模型预训练的性价比太低。你怎么看?

Zack Kass:开发前沿模型是重要的,但更重要的是应用。李开复在这场大模型竞赛中的结果,并不是没有预测到。

我有一个“模型收益递减理论”,基本上是说,在某些时候,下一个新模型的出现并不重要。但在某些时候,新模型的出现又如此不可思议,然而总有一天新模型的出现会对我们不再那么重要,这表明朝着这个结果努力并不是真正的制胜之道,制胜之道是构建每个人都能使用的平台和应用程序。

澎湃科技:有没有你觉得在商业化做得比较好的AI公司?有哪些特点?

Zack Kass:Perplexity非常出色,因为它建立的模型是专门为一个非常关键的应用——搜索设计的。Perplexity把重点完全放在搜索这个巨大的类别上,建立了一个训练有素的模型。

我认为Perplexity的最终模式会是付费版本,它以后会卖广告的。更有趣的是,已经能看到很多软件公司在大规模地扩展自己的产品,很多人都在想办法在自己的软件产品中销售新的人工智能产品。

PerplexityAI

澎湃科技:对于中国企业想要利用AI的,你有什么建议?

Zack Kass:对于中国企业来说,采用人工智能有两种方式:第一种是改进内部流程,让AI帮助企业更好地运行,尤其是如果你是一家中小型企业,这样做就会非常有意义。互联网给我们带来了电子商务,一种全新的购买商品和服务的方式。反过来,AI也将以几乎无法想象的方式呈现新的商业模式,机会显然无处不在。

如果我是中国创业者,会更倾向于在AI软件或AI应用领域,尤其是生活消费类的方面。如果我成立一家人工智能公司,我会为像街角商店这样的消费场景开发人工智能软件。

总体来说,人们日常生活中涉及衣食住行的这类小生意,很容易快速实现商业化,也具有市场潜力,所以我认为向这些公司销售AI将会非常容易。

2025年的关键词是效率、多模态与AI Agent

澎湃科技:你对于2025年AI的发展有哪些预测?AI如何更好地融入我们的生活?

Zack Kass:目前,我们正处于第一个阶段——增强应用阶段。这在中国十分常见,即现有的应用程序,如微信等,现在借助AI获得授权或增强能力,我们只是接受了AI的存在,并将这些模型应用于现有应用程序中,从而现有世界的效率提高了30%~40%,用相同的应用程序能做更多事情。

接下来我们将进入自主代理(AI Agent)阶段。如今,大多数人已知晓自主代理,我们正快速接近一个不再需要打开应用程序并使用由AI授权或增强的应用程序的世界,而是将任务分配给AI代理,由其在应用程序和网络体验中执行任务。这令人兴奋,未来我们会花更少时间在应用程序本身上,而会把更多的时间将任务分配给在应用程序中执行任务的代理。

此外,在未来可能出现的多模态(multi-agent)AI世界中,可以在一定程度上操控手机上的不同软件,尤其是在通过不同的输入方式(如语音、图像、文字等)与手机应用程序进行交互时。

第三阶段是自然语言操作系统多模态。这一阶段稍显复杂,但主要会发生两件事:首先,我们将从携带个人电脑转变为佩戴它们,如以眼镜、手表或工作内容预测工具等形式出现。各大消费电子公司及部分非消费电子公司都在朝此方向努力,OpenAI也不例外。

我的观点是,世界很快将获得完全整合的、不计量的智能,能准确学习我们工作方式并嵌入到各种智能界面的世界里,未来了解大多数未知的事情并变得异常容易,人们也将认为完全获得智能是理所当然的。

澎湃科技:在你看来,人们应该如何应对这种变化?

Zack Kass:首先,你必须为事情的持续变化做好准备。现在世界发展得非常快,我建议大家将自身的适应性作为个人的核心战略,我希望所有的年轻人都能学会适应变化。现在仅仅说“我们可能会改变”是不够的,现在要求我们必须说“我们将改变”。

很多年轻人问我,“我应该学习什么才能获得一份好的工作”?我有一个令人失望的答案,“其实学什么并不重要”。你的专业与经济成果之间的正相关性正在快速下降,你学习的内容不再真正影响你的工作质量。

我并不认为AI会让更多人失业,这是人们对AI革命的误解。我最反感的是,我们开始围绕AI做不到的事情进行追问思考,我称之为“负空间(Negative Space)AI”。在美国硅谷每个人都在谈论AI能做的所有事情,关注AI积极的一面。比如,我去酒吧,有人发现我在OpenAI工作过,他们最喜欢问的问题是:“OpenAI接下来要建造什么?GPT-5什么时候到?”这是我最喜欢的问题,从来没有人问过我:“什么是AI不会实现的?”

如果担心会被AI取代的话,我们应该开始提升人文素质,AI将创造众多新兴工作岗位,并在全球范围内积累巨大价值,推动生活成本不断降低。