环保


中国DeepSeek的神秘创始人梁文锋

梁文峰一直对机器学习和人工智能有着浓厚的兴趣

温网时事新闻,尽管中国的DeepSeek在全球备受关注,但人们对DeepSeek的神秘创始人梁文锋却知之甚少。

在今天的BigTakeAsiaPodcast节目中,主持人K.OanhHa与彭博社的SarithaRai谈论了带领DeepSeek走向人工智能前沿的科技创始人,以及该公司的崛起如何揭示人工智能主导地位的争夺战。

以下是经过简单编辑的谈话记录:

K.OanhHa:今年早些时候,中国人工智能初创公司DeepSeek的一款新产品震惊了世界,也震动了华尔街。

汤姆·麦肯齐:中国的DeepSeek正在震惊整个人工智能世界。随着其应用飙升至下载量排行榜榜首,科技股却暴跌。

哈:尽管受到全球关注,但人们对DeepSeek背后的男人——中国企业家梁文峰——却知之甚少。

SarithaRai:梁文峰无疑是一个神秘人物。

Ha:彭博社的SarithaRai报道亚洲的人工智能。

雷:他绝对是我见过的最难以接近、最低调的科技企业家之一。为了说明他有多注重隐私,我们翻遍了他的网站等等,都没能找到他的任何照片。但他最终出现在了与习近平主席的一次高调会晤中,那张照片被传遍了全世界,他无处不在。

哈:那这位神秘男子长什么样呢?

Rai:他身材苗条,戴着眼镜,但话不多

哈:娃娃脸?

雷:是的,我想我们可以这样形容他。

哈:DeepSeek很少回答关于梁的问题,理由是涉及隐私。但萨丽塔和她的同事们对这位颠覆科技界的AI系统之人充满好奇。因此,他们采访了数十位熟悉梁工作的人,从前雇员、研究员同事到投资者和业内人士。

雷:我们发现,他确实非常低调,非常害羞,但却异常有动力、才华横溢、充满激情。我认为他在某种程度上把DeepSeek视为一项使命,旨在在人工智能领域建立中国,努力确保中国成为人工智能领域一支不可忽视的力量。

哈:欢迎收听彭博新闻社的《亚洲大事记》。我是阿恩·哈。每周,我们都会带您深入了解一些全球最大、最强大的经济体,以及推动这个瞬息万变的地区的市场、巨头和企业。今天的节目:梁文峰是谁?我们将了解这位带领DeepSeek走在人工智能前沿的神秘科技创始人。此外,该公司的迅速崛起又能为我们揭示中美人工智能竞赛的哪些信息?

哈:萨丽莎,谢谢你加入我们。我对人工智能很着迷。你们的故事讲得真有趣。我们可以先聊聊——梁文峰是谁?我们对他的出身了解多少?

赖:苏亮大约40岁,出生在广东省一个叫米里岭的小村庄。他的父母是学校老师,主要教小学。他非常聪明,后来在浙江大学学习,并在那里获得了硕士学位。

哈:在浙江大学,梁和他的朋友们沉浸在各种科技领域:机器学习、信号处理、电子工程。他们甚至在金融危机期间开发了股票交易程序。毕业后,梁与两位同学联手创立了一家名为High-FlyerManagement的量化对冲基金。

雷:所以量化基金基本上是利用数学模型和统计分析来进行股票交易。决策过程中不涉及人类。在巅峰时期,High-FlyerManagement管理着大约140亿美元的资产,所以这是一支相当规模的基金。而且,在其最成功的运营时期,它为投资者提供的年化回报率平均达到35%。所以我认为它的表现确实非常出色。

Ha:据前员工透露,High-Flyer的创业文化充满极客气息。该公司早期的招聘启事宣称吸引了来自谷歌和Facebook的顶尖人才,并表示他们正在寻找拥有“奇特才华”的数学和编程“极客”。

Rai:早期的招聘启事也提到了谢尔顿,他是美国著名情景喜剧《生活大爆炸》中的主角,非常尴尬。

谢尔顿·库珀:例如,我哭是因为别人很愚蠢,这让我很难过。

雷:谢尔顿有一大批粉丝,而且他幽默风趣,这并非刻意为之。所以,你知道,DeepSeek早期的整体文化就是围绕着重现那种极客、书呆子文化。那里有免费零食、扑克游戏之夜。每个人都穿着T恤和拖鞋。

哈:听起来是个很棒的工作场所

雷:是的,那确实是一种非传统的创业文化。与你可能在中国的大型科技公司(例如阿里巴巴和腾讯)看到的文化不同。

哈:梁是如何从量化金融转型到人工智能并创建DeepSeek的?

雷:梁一直对机器学习和人工智能有着浓厚的兴趣。几个月后,OpenAI推出了ChatGPT,这个聊天机器人一夜之间风靡全球。当时是2023年春天,ChatGPT发布几个月后,梁宣布成立DeepSeek。DeepSeek在其早期宣言中谈到了摒弃平庸,应对人工智能领域的重大挑战,当然,最终的目标是攻克通用人工智能。

哈:宣言还阐述了DeekSeek的雄心——将中国定位为尖端技术的领导者。

雷:你知道,梁小军接受了两次采访,虽然这两次采访并不常见。在这两次采访中,他都谈到要让中国的人工智能生态系统走向世界前沿。你知道,中国一直被指责为模仿者。他希望人工智能中国能够走一条不同的道路。

Ha:DeepSeek进展很快。自2023年以来,它已经发布了超过六个AI模型,并帮助开创了一种名为“稀疏性”的技术,使这些模型能够更高效地训练和运行。开发人员开始注意到这一点。然后,在今年早些时候——

DavidGura:现在回到头条新闻,DeepSeek正在震撼全球科技……

雷:他们发布推理模型R1时,引发了行业巨变,并导致股市崩盘,市值达数万亿美元。从那时起,全世界才真正开始关注这位神秘的中国AI企业家。

Ha:那么Saritha,DeepSeek的R1模型有何突破性之处?

Rai:直到最近,人工智能行业一直在投入数十亿美元来构建用于训练模型的基础设施、数据中心和图形处理单元。但DeepSeek所做的是,它证明了其模型在某些基准测试中可以匹敌甚至超越最新的OpenAI或Anthropic模型,而且所需的计算能力和资源都远远少于后者,正如DeepSeek所声称的那样,其资金也远少于后者。

哈:梁和他的团队是如何实现真正的创新的——而且成本只是其中很小的一部分?DeepSeek的成功对中美之间的人工智能竞赛意味着什么?这些我们稍后再谈。

哈:过去十年的大部分时间里,美国一直试图限制中国获取半导体。2022年及次年,紧张局势达到顶峰,华盛顿针对北京实施了两轮芯片出口管制。

JonErlichman:在拜登政府表示将加强对中国人工智能芯片出口的限制后,英伟达和半导体公司的股价今日暴跌,现在英伟达向彭博社表示......

哈:这限制了英伟达等美国公司的销售,这些公司的尖端芯片被科技公司用来帮助训练他们的人工智能模型。此举给中国的开发者带来了重大挑战,但正如彭博社的萨里塔·拉伊所说,这也迫使他们想方设法解决问题。

Rai:需求永远是创新之母。这一点已被中国的人工智能开发者证明,尽管面临出口限制,他们仍然构建了优秀的模型,并与全球顶尖水平进行了对标。

哈:DeepSeek最具创新性的方法之一就是我们之前提到的稀疏性技术。

Rai:稀疏性指的是在不具备高端计算能力的情况下构建模型。这意味着大型语言模型无需完全依赖其资源即可给出查询答案。Liang和他的同事们尝试将模型的专业知识分配到更小的专家组中,然后只利用那些需要用到的专家组。这样做不仅提高了计算效率,也降低了成本。

哈:从根本上来说,你不是用整个大脑,而是只用大脑的某些部分来进行计算吗?

Rai:完全正确,Oanh。你知道,它不会完全调动你大脑里的每个小灰细胞,而是只激活那些包含特定专业领域的神经元或大脑小部分。然后利用这些神经元或小部分来响应查询或回答特定问题,无论是命令还是编码问题。

哈:稀疏性方面的突破给DeepSeek的竞争对手留下了深刻的印象,但最终登上头条的却是其价格。DeepSeek表示,其V3模型的训练成本仅为560万美元——远低于OpenAI在其最先进版本的ChatGPT上花费的约1亿美元。

雷:现在肯定有很多人对这个数字持怀疑态度,因为仅仅是基础设施、模型训练、人才以及所需的时间,加起来就是一笔相当可观的资金。所以,这种怀疑是有道理的。人们估计,如果没有至少10亿美元甚至更多的资金,DeepSeek根本不可能实现这个目标。

哈:DeepSeek的另一个优势在于,像它这样的人工智能初创公司在中国政府和国家主席习近平的领导下拥有坚定的盟友。萨里塔表示,习近平认为生成式人工智能、机器人技术和其他高科技发展方向有利于国家议程,而这正是推动关键技术自主化的宏伟计划的一部分。DeepSeek的成功也促使阿里巴巴、腾讯和字节跳动等规模更大的竞争对手纷纷发布自己的人工智能模型。

Ha:Saritha,DeepSeek的模型目前已经完全开源。这意味着任何个人或公司都可以将DeepSeek的算法整合到自己的程序中。为什么公司选择这种方式?为什么这种方式很重要?

Rai:开源,从某种程度上来说,可以说是让人工智能民主化,并将其推向世界。但我们不要忘记,如果中国的人工智能模型是专有模型,并且成本与OpenAI等西方公司相当,那么在全球范围内,接受者会更少。通过降低成本并开源,中国让世界各地的人们能够快速了解​​并开始使用模型,从而使它们在商业和人工智能生态系统中更快地被采用,从而超越OpenAI等公司。这意义重大。这不仅关乎模型的民主化,更是战略性地确保你通过降低成本来击败竞争对手,以便世界迅速采用它,并使其成为主流。

Ha:因此,微软和亚马逊都在其云服务中提供DeepSeek。DeepSeek的模型已被整合到Perplexity中,Perplexity是一款人工智能搜索引擎,同时还提供OpenAI和Anthropic的模型。

Rai:人工智能的发展速度确实令人担忧,全世界都担心所有的控制权都掌握在一两家公司手中。我认为这正是DeepSeek和其他公司试图向世界传递的信息,即所有的控制权不能都掌握在一两家公司手中,他们构建的专有模型也应该更加民主。因此,我认为开源理念的重点在于降低风险、集中精力,并允许更多人利用更容易获得的技术进行构建。

哈:在构建人工智能时,西方方法和中国方法之间是否也存在某种文化冲突或价值观冲突?

雷:非常清楚,因为如果你观察DeepSeek的早期模型,甚至是未经调整或微调的模型,你会发现它们基本上都在中国的审查规则框架内运行。例如,你无法向它询问有关台湾或习近平的问题,它只会给出一个非常平淡的官方答案。然而,如果你使用同一个模型,并用其他数据对其进行训练,使其在文化上适应不同的地域,这就是DeepSeek早期学到的一点:通过开源模型,并让开发者和用户有机会根据自己的文化背景进行定制,DeepSeek可以更快地在全球范围内被采用,而不是控制大部分模型,并使其只能在世界各地提供对中国友好的答案。

哈:尽管一些人对中国在人工智能领域的创新表示赞赏,但美国许多人怀疑其成功背后隐藏着更黑暗的原因。美国众议院委员会4月份发布的一份报告指控DeepSeek与中国政府之间存在“重大”联系。报告得出结论,该公司非法窃取了OpenAI的数据。中国大使馆否认这些指控,称其毫无根据。与此同时,DeepSeek和梁尚未对众议院的这份报告发表评论。

哈:萨丽莎,目前看来,在人工智能领域似乎存在着某种军备竞赛,尤其是在美国和中国之间。

雷:这就像一场比赛,我认为现在就断言胜负还为时过早。我只能说,一年前,我不会认为这是一场势均力敌的比赛。这是一场马拉松,但你必须以冲刺的速度前进。我们真的才刚刚起步,无论哪个国家最终获胜,都将获得巨大的经济收益。因此,每个国家,尤其是美国和中国,都不想在人工智能领域松懈。

Ha:您认为DeepSeek目前面临哪些挑战?

雷:我认为主要挑战之一是下一步该做什么?他们能做什么来超越他们已经做过的事情?但我认为,对于DeepSeek来说,在其本土市场也面临着竞争。阿里巴巴、字节跳动和腾讯等许多中国公司正在构建超越DeepSeek上一个旗舰模型的模型。因此,DeepSeek面临着做得更好的压力。但我认为,将这些模型商业化也存在一个问题。像DeepSeek这样的公司将如何盈利?DeepSeek是否想盈利,如果想盈利,又将如何盈利,目前尚无明确的答案。

  本文“人工智能”来源:http://www.wenzhou.co/shishi/6515.html,转载必须保留网址。
(编辑:温网)