网站首页 >> 资源管理 >>阅读资源 >> Deepseek:国运级别的科技成果
详细内容

Deepseek:国运级别的科技成果

1.DeepSeek横空出世莽昆仑

1738431534518486.png

 

近日,由国产人工智能初创公司杭州深度求索(DeepSeek)开发的大语言模型DeepSeek-R1引发了全球科技界的广泛关注。尤其是在中国与美国的技术竞争日益激烈的背景下,DeepSeek的快速崛起让硅谷乃至全球科技圈为之震动。DeepSeek应用在2025127日登顶苹果中国地区和美国地区的应用商店免费APP下载榜,甚至在美区下载榜上超越了OpenAIChatGPT,成为科技界最热议的话题。

在科技的浩瀚星空中,DeepSeek犹如一颗耀眼的新星,以惊人的速度升起,照亮了整个硅谷与华尔街。它凭借高性能、低成本的AI模型,登顶中美应用商店免费榜,引发全球瞩目。其技术突破如同一场“技术海啸”,不仅让美股科技股风声鹤唳,也让全球科技巨头如坐针毡。DeepSeek的崛起,如同一场震撼全球的风暴,改写着AI产业的规则。

这一突破不仅引发了科技人士的高度关注,还推动了相关概念股的飞涨。每日互动、航锦科技、南威软件、美格智能等公司股票纷纷涨停,而飞利信、卓创资讯、思特奇等公司股价也大幅上涨,涨幅超过10%DeepSeek不仅成为投资者关注的焦点,也象征着中国在人工智能领域的飞速崛起。

在这一波技术热潮中,国内知名游戏公司游戏科学的创始人冯骥也在社交媒体上大力推荐DeepSeek。他称DeepSeek的成就可能是“国运级别的科技成果”。冯骥在微博中表示,DeepSeek-R1凭借其强大的推理能力、极低的训练和使用成本、开源特性、免费服务和联网搜索能力,给全球AI行业带来了前所未有的震撼。

DeepSeek的成功引发国内外关注的同时,国际科技界对这一成就也给予了高度评价。美国AI科技初创公司Scale AI的创始人亚历山大·王(Alexandr Wang)表示,过去十年来,美国在人工智能领域可能一直占据领先地位,但DeepSeek的出现可能会“改变一切”。他指出,DeepSeek-R1的推出不仅表现出了强大的技术能力,还展示了中国在人工智能大模型领域迅速赶超美国的潜力。

加州大学伯克利分校计算机科学教授伊恩·斯托伊卡(Ion Stoica)也对DeepSeek的成绩表示惊讶,他指出,DeepSeek-R1DeepSeek-V3已经显示出其强大的性能,尤其是在成本控制方面,DeepSeek能够用极低的成本提供与现有大模型相媲美的结果。他还透露,在伯克利大学的大模型排行榜中,DeepSeek-R1在包括开源和专有模型的所有模型中排名第三,证明了其在技术上的领先地位。

更为关键的是,DeepSeek的成功是在美国对华芯片出口管制不断加强的背景下取得的。AMD宣布,已将DeepSeek-V3模型集成到其Instinct MI300X GPU上,这一集成使得DeepSeek能够在全球范围内与现有的大模型展开竞争,进一步打破了美国对中国技术封锁的限制。

DeepSeek的崛起不仅是中国人工智能行业的一次重大突破,也代表了全球科技竞争格局的变化。这一技术成果的成功发布,标志着中国在AI领域的崛起,不仅打破了技术封锁,也为全球人工智能的发展带来了新的机遇和挑战。随着DeepSeek的进一步发展,其在全球AI领域的影响力势必将愈加深远。

2.来自东方的神秘力量

DeepSeek是一款由国内人工智能公司研发的大型语言模型,拥有强大的自然语言处理能力,能够理解并回答问题,还能辅助写代码、整理资料和解决复杂的数学问题。

OpenAI开发的ChatGPT相比,DeepSeek不仅率先实现了媲美OpenAI-o1模型的效果,还大幅降低了推理模型的成本。其新模型DeepSeek-R1以十分之一的成本达到了GPT-o1级别的表现,引发海外AI圈的广泛讨论。

DeepSeek是由梁文峰于2015年创立的中国人工智能科技公司,致力于通过AI技术赋能全球企业智能化转型。作为国内AI领域的先行者,梁文峰带领团队攻克多项技术难关,开发出智能决策系统、自然语言处理平台等核心产品,服务覆盖金融、医疗、教育等十大行业。创业初期,公司曾因资金链断裂濒临倒闭,梁文峰抵押个人房产以维持运营,最终凭借技术突破赢得首轮融资。2023年,DeepSeek入选“全球AI创新企业50强”,梁文峰本人获评“中国科技领袖年度人物”。他始终秉持“技术向善”的理念,推动AI技术与人文关怀深度融合,其名言“用算法温暖世界”成为行业标杆。

梁文峰1985年出生于广东省湛江市,2002年以湛江吴川市第一中学“高考状元”成绩考入浙江大学电子信息工程专业,2010年获得信息与通信工程硕士学位。在校期间,他对金融市场产生了浓厚的兴趣。在2008年全球金融危机之际,带领团队探索了机器学习技术在全自动量化交易中的应用潜力。2013年,梁文峰与浙大同学徐进共同创立了杭州雅克比投资管理有限公司,两年后又成立了杭州幻方科技有限公司,致力于通过数学和人工智能进行量化投资。2015年的市场波动中,幻方依靠先进的高频量化策略取得了令人瞩目的成绩。2016年,幻方推出了首个基于深度学习的交易模型,并实现了所有量化策略的AI化转型。2018年,幻方正式确立了以AI为核心的发展战略。2021年,幻方的资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。2023年,梁文峰宣布将正式进军通用人工智能领域,并宣布将正式进军通用人工智能领域,并创办深度求索DeepSeek,专注于做真正人类级别的人工智能。20245月,DeepSeek发布混合专家语言模型DeepSeek-V2。同年12月,DeepSeek-V3问世,这款性能优越且性价比极高的大语言模型,被矽谷同行誉为“来自东方的神秘力量”。 


1738431600920836.jpg

 

3.在算法的河流中打捞人性的珍珠  

DeepSeek的创始人叫梁文锋,今年40岁,毕业于浙江大学。梁文锋有金融背景,曾是一家对冲基金公司的首席执行官,管理自己与伙伴在2015年联合创立的“幻方量化” 对冲基金,利用AI分析金融数据做出投资决策,进行量化交易。幻方量化管理的私募资金一度超过千亿人民币,梁文锋本人则成了亿万富翁,用对冲基金的收益来支持他的AI实验室。在成立DeepSeek以前,梁文锋在2021年就囤了上万个英伟达GPU晶片,有人不明所以,视之为富豪的特别爱好。《金融时报》则引述梁文锋的生意伙伴形容他“一身书呆子气、发型糟糕”。

梁文峰的办公室挂着一幅字:“知黑守白”。他说,这是AI开发者的必修课——既要深入数据的黑暗森林寻找规律,也要坚守人性的光明底线。    

2017年的寒冬,DEEPSEEK遭遇创业以来最大危机。投资方临时撤资,核心团队出走,账上资金仅够支撑两周。那个深夜,梁文峰在未完工的实验室里,对着闪烁的服务器指示灯写下:“要么让代码替我流泪,要么让算法为我开路。”次日,他抵押了婚房,将200万元投入研发。三个月后,团队突破多模态交互技术瓶颈,拿下首个千万级订单。    

在梁文峰看来,技术突破只是创业的第一重山,更难的是在效率与伦理之间找到平衡点。当某医疗机构提出用AI系统预测患者“治疗价值”时,他断然拒绝:“技术可以计算生存概率,但不能计算生命尊严。”这句话后来被刻在公司文化墙上,成为DEEPSEEK的“算法宪法”。    

“技术至上”到“价值觉醒”,梁文峰的蜕变印证着中国科技企业的成长轨迹。他常说:“真正的智能不是模仿人类,而是滋养人性。”在DEEPSEEK的教育扶贫项目中,AI系统不仅提供个性化学习方案,更会捕捉偏远山区孩子眼中的光芒——那是算法无法量化的希望。    

如今,当行业热议“元宇宙”“脑机接口”时,梁文峰却带着团队走进养老院。他们的新项目“记忆胶囊”,用AI帮助阿尔茨海默症患者重建记忆链。一位老人握着测试机流泪:“它让我又看见了年轻时的妻子。”这一刻,技术不再是冰冷的工具,而是承载温情的方舟。    

或许正如梁文峰所言:“最伟大的算法,永远在人的心里运行。”  

 

 

1738431486251181.png

                                                      DeepSeek创始人梁文锋出席中国总理李强主持专家座谈会

 

4、中国AI科学家的“深度探索”

总部位于杭州的一家小型实验室深度求索2025120日发布核心产品DeepSeek-R1模型。

中国的人工智能(AI)科学家们看来已准备好在新的农历年扬眉吐气。总部位于杭州的一家小型实验室深度求索DeepSeek),以一群年轻的中国工程师和极客般的老板,在成立仅一年多后,今年120日发布核心产品DeepSeek-R1模型,顿时惊艳各方,让AI业界在惊叹号中进入蛇年。

R1模型被发现几乎和美国行业巨头OpenAI一样好用,训练成本却不到600万美元(810万新元),只等于OpenAI的几十分之一,使用的是低功能晶片。

农历除夕前一天(127日),Deepseek应用同时登顶苹果中国地区和美国地区应用商店免费App下载排行榜,超过了OpenAIChatGPT。同日,美国晶片龙头英伟达股价则历史性重挫17%,市值蒸发近6000亿美元,写下美国股市史上一家公司的最高单日跌幅纪录,欧美科技股也连带大跌。

至今,这股冲击波仍在回荡。人们原本认为,开发领先的AI需要使用大量昂贵的高阶晶片,因此美国如果阻断中国对高阶晶片的获取,就可以把中国排除在AI的竞争之外,并由此在超级计算机、机器学习、算法和软件开发等领域让中国吃大亏。结果,DeepSeek颠覆了这个预设,无异于在AI的领域为中国绕弯开出了一条路。

中国科学家的这场深度求索,给西方AI产业界还带来另一层深度震撼。正如英国《经济学人》杂志的评论,过去两年来,美国大型AI实验室都在比拼谁的模型能实现微小的质量提升,而不是谁能造出价廉物美、运算速度更快的模型。在这方面,DeepSeek展示了一种更好的竞争方法。

虽然如此,大量的西方主流媒体与评论人并未全然对DeepSeek采取否定的态度,其中还不乏正面评价,甚至隐隐透出对这名中国技术理想主义者的好感。一些英美媒体也看到,DeepSeek也许吓坏了股民,打击了科技公司的高利润率,以及部分抵消了美国打压中国AI发展的企图,却可能让整个AI产业与所有用户受惠。

梁文锋的深度探索,让人们重新思考与评估美国科技公司与晶片制造商吸纳高额投资再赚取垄断式利润的商业模式,是否合理与可持续?假如DeepSeek展示的成绩是真实的——它并没有隐藏成本或中国政府的补贴,那这意味着AI可以以更便宜的价格、更广泛地被人类利用到更多的应用场景,转化为生产力,改善更多人的生活,而且不被任何一个国家垄断。最终,消费者将会是大赢家,中美之外的其他中小国家也会受益。

DeepSeek和阿里巴巴通义千问一样都使用开源模型,而且每回发布新模型,也会发表论文公开大量技术细节。从商业的角度说,他们免费提供了OpenAI想要收费的内容。在国际关系上,全球所有国家都可以使用它们开发的开源生成式AI,这等于给了许许多多国家另一个选择,减少对美国以及中国的依赖,也少些选边的压力。

这可能来源于梁文锋今年除夕感言中提到的知识和信息平权信念。他去年7月接受中国媒体采访时,表明自己的出发点不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展;他认为中美差距不是一年或两年,而是原创和模仿之差,中国AI不能永远跟随,不能一直搭便车。

他在除夕夜则写下感触:真正伟大的从不是某个模型,而是千万普通人用它创造的善意涟漪。当人们已经非常习惯看到科技企业家名成利就,在资本市场呼风唤雨的此时,再次看到理想主义的行动与表白,我们终于回想起科学技术原本应该有的样子。但愿作为人类最前沿科技的AI,体现的是人类集体的胜利与善意,而不是地缘政治或实力原则的再次胜出,希望DeepSeek的探索会提供好的示范与启示。

 

1738431399918525.png 

 

  

5.开源:未来的发展方向?

DeepSeek采用了完全开源策略,不仅降低了用户的使用门槛,还促进了AI开发者社区的协作生态。通过开源,DeepSeek吸引了大量开发者和研究人员的关注,推动了AI技术的发展。英伟达AI科学家Jim Fan称赞DeepSeek是“真正开放的前沿研究,赋能所有人”。

当然,开源也面临着保护知识产权和开源社区秩序维护等挑战。

俞扬表示,开源只是一种商业模式,即便开源项目也拥有版权。开源与闭源之争,实质上是不同商业模式在特定场景和时代背景下的有效性对比。

DeepSeek的成功被一些人视为中国技术理想主义的体现,甚至被外国人比喻为神秘的东方力量。

但从整个AI大模型产业来看,DeepSeek的成功或许代表了一种全新的发展方向——通过算法优化而非单纯依赖算力和数据量来提升模型性能。这一方向也为AI大模型产业的发展提供了新的思路。

据深度求索公司官网介绍,DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有很少标注数据的情况下极大提升了模型的推理能力,在数学、代码、自然语言推理等任务上,测评性能与GPT-o1模型正式版接近。

国际投行摩根士丹利表示,更大(的模型)不再等于更聪明DeepSeek通过显著提高数据质量和改进模型架构,展示了一条与之前大模型不同的高效训练途径。摩根士丹利说,DeepSeek的模型现在低成本优势突出,与国际知名大模型相比,其成本大约低了一个数量级。

高盛集团也认为,DeepSeek新模型的成本远低于现有模型,这意味着开发利用大模型的门槛降低,互联网巨头将面临初创公司的潜在竞争。

英国《金融时报》发表的一篇评论文章指出,DeepSeek挑战了人工智能产业在过去一段时间的核心信念,即认为更强大的硬件才是推动人工智能发展的关键。

120日,DeepSeek正式发布DeepSeek-R1模型之日,正巧梁文锋参加了国务院总理李强主持的专家、企业家和教科文卫体等领域代表座谈会,并在会上发言。由此可知国家层面来说,对DeepSeek等高科技公司的重视。连硅谷和华尔街大佬都明白的前沿科技之重要,中国在国家层面当然有我们的重视、保护方法!

另一方面,从全人类的视角看,中美科技界最终要走向合作,共同面对明天的新曙光!目前的关键在于如DeepSeek等,还真不能被不断的来自美国的网络攻击等等所吓倒。我们该拿出应对之策!

 

6.揭秘DeepSeek:一个更极致的中国技术理想主义故事

中国的7家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。

一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张A100芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。

在被AI连续轰炸的5月,DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。

DeepSeek被迅速冠以“AI界拼多多”之称的同时,字节、腾讯、百度、阿里等大厂也按耐不住,纷纷降价。中国大模型价格战由此一触即发。

弥漫的硝烟其实掩盖了一个事实:与很多大厂烧钱补贴不同,DeepSeek是有利润的。

这背后,是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。

在硅谷,DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”,并将其训练设置应用于自己的模型。而OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。”

在基本由硅谷牵动故事进展的AI浪潮里,这是罕有的情形。多位行业人士告诉我们,这种强烈的反响源自架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。一位AI研究者表示,Attention架构提出多年来,几乎未被成功改过,更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。”

而另一方面,国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去击破那样一种成见:美国更擅长从0-1的技术创新,而中国更擅长从1-10的应用创新。何况这种行为非常不划算——新一代模型,过几个月自然有人做出来,中国公司只要跟随、做好应用即可。对模型结构进行创新,意味着没有路径可依,要经历很多失败,时间、经济成本都耗费巨大。

DeepSeek显然是逆行者。在一片认为大模型技术必然趋同,follow是更聪明捷径的喧哗声中,DeepSeek看重“弯路”中积累的价值,并认为中国的大模型创业者除应用创新外,也可以加入到全球技术创新的洪流中。

DeepSeek的很多抉择都与众不同。截至目前,7家中国大模型创业公司中,它是唯一一家放弃“既要又要”路线,至今专注在研究和技术,未做toC应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。这些使得它经常被遗忘在牌桌之外,但在另一端,它又经常在社区被用户“自来水”式传播。

DeepSeek究竟是如何炼成的?我们为此访谈了甚少露面的DeepSeek创始人梁文锋。

这位从幻方时代,就在幕后潜心研究技术的80后创始人,在DeepSeek时代,依旧延续着他的低调作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。

和很多量化基金创始人都有过海外对冲基金履历,多出身物理、数学等专业不同的是,梁文锋一直是本土背景,早年就读的也是浙江大学电子工程系人工智能方向。

多位行业人士和DeepSeek研究员告诉我们,梁文锋是当下中国AI界非常罕见的“兼具强大的infra工程能力和模型研究能力,又能调动资源”、“既可以从高处做精准判断,又可以在细节上强过一线研究员”的人,他拥有“令人恐怖的学习能力”,同时又“完全不像一个老板,而更像一个极客”。

这是一次尤为难得的访谈。访谈里,这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把“是非观”置于“利害观”之前,并提醒我们看到时代惯性,把“原创式创新”提上日程的人。

一年前,DeepSeek刚下场时,我们初次访谈了梁文锋 :《疯狂的幻方:一家隐形AI巨头的大模型之路》 。如果说当时那句「务必要疯狂地怀抱雄心,且还要疯狂地真诚」还是一句美丽的口号,一年过去,它已经在成为一种行动。

以下为对话部分:

「暗涌」:DeepSeek V2模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。

梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。

「暗涌」:这个结果让你们意外吗?

梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。

「暗涌」:5天后智谱AI就跟进了,之后是字节、阿里、百度、腾讯等大厂。

梁文锋:智谱AI降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。

「暗涌」:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。

梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。

「暗涌」:在这之前,大部分中国公司都会直接copy这一代的 Llama结构去做应用,为什么你们会从模型结构切入?

梁文锋:如果目标是做应用,那沿用 Llama结构,短平快上产品也是合理选择。但我们目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是scale up到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。

「暗涌」:这种代差主要来自哪里?

梁文锋:首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗4倍算力。我们要做的,正是不停地去缩小这些差距。

「暗涌」:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?

梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。

梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。

但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。

「暗涌」:为什么DeepSeek V2会让硅谷的很多人惊讶?

梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。

「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。

梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。

「暗涌」:为什么中国公司——包括不缺钱的大厂,这么容易把快速商业化当第一要义?

梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。

「暗涌」:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像5月这次MLA架构的创新,也会很快被其他家copy吧?

梁文锋:在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。

开源,发论文,其实并没有失去什么。对于技术人员来说,被follow是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。

「暗涌」:你怎么看类似朱啸虎的这种市场信仰派观点?

梁文锋:朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司。

「暗涌」:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?

梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。

英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。

「暗涌」:现在的DeepSeek有一种OpenAI早期的理想主义气质,也是开源的。后边你们会选择闭源吗?OpenAIMistral都有过从开源到闭源的过程。

梁文锋:我们不会闭源。我们认为先有一个强大的技术生态更重要。

「暗涌」:你们有融资计划吗?看有媒体报道,幻方对DeepSeek有独立拆分上市的计划,硅谷的AI创业公司,最终也都难免要和大厂绑定。

梁文锋:短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。

「暗涌」:很多人认为,做AGI和做量化是完全不同的两件事,量化可以闷声去做,但AGI可能更需要高举高打,需要结盟,这样可以让你的投入变大。

梁文锋:更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。

「暗涌」:你们现在不做应用,是因为你们没有运营的基因吗?

梁文锋:我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek 的基础上构建toB、toC的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。

「暗涌」:但选择API的话,为什么选择DeepSeek,而不是大厂?

梁文锋:未来的世界很可能是专业化分工的,基础大模型需要持续创新,大厂有它的能力边界,并不一定适合。

「暗涌」:但技术真的可以拉开差距吗?你也说过并不存在绝对的技术秘密。

梁文锋:技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。

「暗涌」:你们降价后,字节率先跟进,说明他们还是感受到某种威胁。你怎么看创业公司与大厂竞争的新解法?

梁文锋:说实话我们不太care这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的目标还是去实现AGI。目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。

「暗涌」:你怎么看DeepSeek之外的6家大模型创业公司的终局?

梁文锋:可能活下来2到3家。现在都还处在烧钱阶段,所以那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。

「暗涌」:幻方时代,面对竞争的姿态就被评价为“我行我素”,很少在意横向比较。关于竞争,你思考的原点是什么?

梁文锋:我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。

「暗涌」:OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇佣了“一批高深莫测的奇才”,做出DeepSeek v2的是怎样一群人?

梁文锋:并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。

「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?

梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

「暗涌」:这次MLA创新是如何发生的?听说idea最早来自一个年轻研究员的个人兴趣?

梁文锋:在总结出Attention架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个team,花了几个月时间才跑通。

「暗涌」:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但AGI这种充满不确定性的前沿探索,是否多了管理动作?

梁文锋:DeepSeek也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个idea显示出潜力,我们也会自上而下地去调配资源。

「暗涌」:听说DeepSeek对于卡和人的调集非常灵活。

梁文锋:我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。

「暗涌」:一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人, 可以让一些非传统评价指标里优秀的人被选出来。

梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。

「暗涌」: transformer诞生在谷歌的AI LabChatGPT诞生在OpenAI,你觉得大公司的AILab 和一个创业公司对于创新产生的价值有什么不同?

梁文锋:不管是Google实验室,还是OpenAI,甚至中国大厂的AI Lab,都很有价值的。最后是OpenAI做出来,也有历史的偶然性。

「暗涌」:创新很大程度也是一种偶然吗?我看你们办公区中间那排会议室左右两侧都设置了可以随意推开的门。你们同事说,这就是给偶然留出空隙。transfomer诞生中就发生过那种偶然经过的人听到后加入,最终把它变成一个通用框架的故事。

梁文锋:我觉得创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。Chatgpt出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信。这种信心通常在年轻人身上更明显。

「暗涌」:但你们不参与融资,很少对外发声,社会声量上肯定不如那些融资活跃的公司,怎么确保DeepSeek就是做大模型的人的首选?

梁文锋:因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。

「暗涌」:前一段OpenAI的发布并没有等来GPT5,很多人觉得这是技术曲线明显在放缓,也很多人开始质疑Scaling Law,你们怎么看?

梁文锋:我们偏乐观,整个行业看起来都符合预期。OpenAI也不是神,不可能一直冲在前面。

「暗涌」:你觉得AGI还要多久实现,发布DeepSeek V2前,你们发布过代码生成和数学的模型,也从dense模型切换到了MOE,所以你们的AGI路线图有哪些坐标?

梁文锋:可能是2年、5年或者10年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,可能多模态、参与到人类的真实世界里学习,对AGI也是必要的。我们对一切可能性都保持开放。

「暗涌」:你觉得大模型终局是什么样态?

梁文锋:会有专门公司提供基础模型和基础服务,会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。

「暗涌」:过去这一年,中国的大模型创业还是有很多变化的,比如去年开头还很活跃的王慧文中场退出了,后来加入的公司也开始呈现出差异化。

梁文锋:王慧文自己承担了所有的损失,让其他人全身而退。他做了一个对自己最不利,但对大家都好的选择,所以他做人是很厚道的,这点我很佩服。

「暗涌」:现在你的精力最多放在哪里?

梁文锋:主要的精力在研究下一代的大模型。还有很多未解决的问题。

「暗涌」:其他几家大模型创业公司都是坚持既要又要,毕竟技术不会带来永久领先,抓住时间窗口把技术优势落到产品也很重要,DeepSeek敢于专注在模型研究上是因为模型能力还不够吗?

梁文锋:所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。很可能是一种刻舟求剑。

「暗涌」:过去幻方就有很强的技术和创新基因,成长也比较顺利,这是你偏乐观的原因吗?

梁文锋:幻方某种程度上增强了我们对技术驱动型创新的信心,但也不都是坦途。我们经历了一个漫长的积累过程。外部看到的是幻方2015年后的部分,但其实我们做了16年。

「暗涌」:回到关于原创式创新的话题。现在经济开始进入下行,资本也进入冷周期,所以它对原创式创新是否会带来更多抑制?

梁文锋:我倒觉得未必。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。

「暗涌」:所以你对这件事也是乐观的?

梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。

以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。

1738431342715736.png

 

 

Deepseek:国运级别的科技成果.pdf

Deepseek:国运级别的科技成果.docx

DEEPSEEK创始人梁文锋的励志人生.pptx

https://www.toutiao.com/video/7466343451383087651/?app=news_article&timestamp=1738425823&utm_campaign=client_share&share_did=MS4wLjACAAAA1DxYWh6kMVDNUiBAOWWTxR-hK0_0fYSIBvsPGNFRQPwjPMn8JdVNBYEhLiKwgrIg&share_uid=MS4wLjABAAAA_Eomeq7FaRJk31gwbvx2UCs328B760a5MFVeN02mXRc&req_id_new=202502020003433F39E41D26C40C1BC2A4&category_new=my_favorites_all&wxshare_count=1&tt_from=weixin&utm_source=weixin&utm_medium=toutiao_android&share_token=2e57f9b7-1e13-4f59-90ca-6c00ada3005f&source=m_redirect&wid=1738503872402

站群导航
  公司名称:罗湖区高勇名师工作室   详细地址:深圳市罗湖外语学校高中部    联系电话: 13691989055 
邮箱:gaoyong8899@163.com   业务QQ:383610293   微信号: 13691989055


 微信公众号                 手机网站

?


seo seo