引言:2025年, 注定是中国改变世界的一年,起码,改变了整个世界对中国的看法从deepseek火热出圈,到哪吒2登顶世界动漫电影票房冠军,每件事都足以让国人引以为傲但是,作为一个互联网自媒体,我对deepseek更加感兴趣,所以,这段时间花费了非常多的时间,到处查找关于deepseek创始人梁文锋相关的信息我想了解一下,到底是一个什么样的人,才会做出这么厉害的产品,又是什么样的契机,让他做出来的很遗憾,梁文锋为人很低调,网上就连百度百科的资料都寥寥数语,能查到的公开演讲只有一次,2023年和2024年接受过36氪两次采访但是,这次查找,也找到了一些有用信息于是,花费了1个星期,整理这篇文章
壹:求学
1984年秋天,好莱坞的银幕上亮起一道红光。导演詹姆斯·卡梅隆执导的《终结者》上映,人工智能首次以“天网”形象引发全球恐慌
机器人“终结者”用机械腔调说出那句经典台词:“I’ll be back(我会回来的)”,全世界的观众倒吸一口冷气——人类第一次在电影里被自己创造的AI追杀。
1985年,当人们还沉浸在电影《终结者》带来的震撼中,蝴蝶的翅膀开始扇动,命运的齿轮开始转动。
中国南部广东湛江的小渔村,一个普通教师家庭出生了一个男婴,父亲为其取名梁文锋
没人能想到,当卡梅隆用电影预言AI毁灭人类时,这个喝着咸腥海风长大的男孩,会在40年后用中文大模型重新定义人与机器的关系。
梁文锋的父母的都是当地的教师,从小对孩子的教育就很上心,可能也基于这样的家庭,从小便展现出了过人的学习能力
梁文锋的小学时光是在父亲执教的梅菉小学度过的,
梁文锋在小学三、四年级的时候就爱好集邮,他集邮有一个特点是“以邮养邮”,就是收到邮票后拿去卖,卖后又集回,基本不用花父亲的钱。可以说,从小就有挣钱的心得
六年级的时候,在梅菉小学六(3)班担任学习委员,成绩在班上名列前茅。1996年,梁文锋以优异的成绩从梅菉小学直升至吴川一中,成为当时整个梅菉小学仅有的4名直升生之一。
梁文锋初中和高中阶段均就读于吴川一中,一直是学校里的“尖子生”,并在数学学科表现出极大天赋,初中时期就学完了高中数学,甚至开始学大学的数学,数学思维能力很强。
初中时期的梁文锋性格很文静,但不是书呆子,他在学习上很有自己的“一套方法”,一般爱玩,但学习成绩从没落下,每一科成绩都很好。
2002年,17岁的梁文锋参加全国普通高考,以理科816分、吴川市第一中学“高考状元”的成绩考上浙江大学本科电子信息工程专业
当时他的班主任想让他报清华,梁文锋说:“要是去清华,不能选择自己心仪的专业。”所以转身选了浙江大学。
2002年9月至2006年6月,梁文锋来到浙江杭州,在浙江大学电子信息工程专业读本科。改变命运的起点便是浙江大学,因为这里有人在等着他
2005年,浙江大学竺可桢学院混合班读本科的高材生徐进,和学长方毅一起创业,注册了一个叫做每日科技的公司。
插播一句,浙江大学竺可桢学院介绍:
竺可桢学院是以竺可桢老校长之名命名的荣誉学院,前身为1984年创办的原浙江大学(工科)混合班。学院是浙江大学对优秀本科生实施“特别培养”和“精英培养”的重要基地。如果说考上浙江大学是人才,那么再进入竺可桢学院的就是人才中的人才。
进入竺可桢学院后,不分专业,先在文、理、工三大类平台上进行通识课程和基础课程的前期培养。在第二学年,根据自己的兴趣、特长确认主修专业,并进入后期培养阶段,同时实行本科生专业导师制。学生既可以按各专业普通通道进行后期培养,亦可以按照长学制及双专业、双学位等多通道多规格发展途径进行后期培养
2007年,22岁的梁文锋又考上浙江大学信息与通信工程专业研究生。导师是大名鼎鼎的项志宇教授,主要做机器视觉研究。
到这里一切都很平常且平淡,梁文锋这期间不是在学习,就是研究代码,要么就是待在图书馆。
而真正的转折才刚开始
贰:转折
2008年,在浙大读书期间,23岁的梁文锋和正在读博士的学长徐进,连同其他几个同学一起研究,开始使用机器学习等技术探索全自动量化交易,
这在所有人看来,都是极其疯狂。因为许多人对量化投资能否盈利持怀疑态度,认为这种依靠计算机算法和数据模型的投资方式过于抽象和不可靠。
正是这次的尝试,让他赚得了人生的第一桶金,同时,开始累积了市场行情数据、金融市场其他相关数据以及宏观经济等数据。
注意这个时间段,2008年,正值全球金融危机。
2010年6月,25岁的梁文锋从浙江大学信息与通信工程专业硕士毕业,他的硕士毕业论文题目是《基于低成本PTZ摄像机的目标跟踪算法研究》。
同一年,徐进也浙江大学博士毕业了
毕业以后,很多同学都拿到了大厂offer,梁文锋却选择了去成都,在出租屋里继续研究用计算机做量化交易
也是在这期间,有个同样疯癫的、在深圳城中村做着“不靠谱”飞行器的朋友拉他入伙。因为梁文锋心中一直埋藏着一个更大的梦,而今他似乎已经摸到了门槛,他得去实现它,所以婉拒了朋友的要求。
2010年梁文锋就一直全身心投入到全自动量化交易和AI算法研究中。这一年沪深300股指期货正式推出,这一里程碑事件为量化投资带来了前所未有的发展机遇,凭借着扎实的技术功底和敏锐的市场洞察力,梁文锋带领他的团队迅速抓住这一机遇,在市场中大展身手。
他们所采用的量化投资策略取得了巨大的成功,自营资金从6万元如滚雪球般迅速增长,超过了5亿元。
在梁文锋还小的时候,很多家长找到他父亲说读书没有用,想要让孩子不上学出去干活。但梁文锋的父亲坚信,改变命运的一定的知识
这次尝试做量化交易,让梁文锋和团队挣到了钱, 挣到了很多人一辈子都挣不到的钱。而此时的梁文锋,似乎正在用自己的改变来诠释当初父亲坚持的想法
2012 年,深度学习算法 AlexNet 在图像识别领域取得重大突破,在人工智能界掀起千层巨浪。这在当时,给作为业内人士的梁文锋来了非常大的冲击.
梁文锋在后来的采访中说“AlexNet带来的冲击已经引领一个新的时代,因为AlexNet的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。”
梁文锋无比笃信“人工智能一定会改变世界”
同时他意识到 AI 的潜力远不止于此,AI一定还能有更大的作为,此刻AI变革的种子已经在他心里深深种下,眼下,必须得把之前累积出来做量化的数据排上用场
而彼时的徐进,继每日互动科技公司以后去了华为工作,后来又去了杭州捷尚智能电网科技公司。梁文锋再次找到徐进,决定用AI来做专业量化交易公司
2013年,回到杭州的梁文锋和徐进,创立杭州雅克比投资管理有限公司,决定用AI进行量化投资交易,这算是在AI在实际应用的一次尝试
量化交易,简单理解就是:用设定的数学模型和AI进行自动投资,由机器和AI做决策,而这些数学模型的数据来源,就是他在早年的探索中累计的
2015年4月16日,上证50、中证500股指期货交易正式在中国金融期货交易所挂牌交易,这为量化基金创造了更大的操作空间。
2个月后,看到机会的梁文锋和徐进,创办杭州幻方科技有限公司,立志成为世界顶级的量化对冲基金。后更名为浙江九章资产管理有限公司。
幻方量化是最早探索用机器学习替代传统量化策略的量化机构之一。
梁文锋带着团队利用仅有的10张GPU显卡,采用高频量化投资策略,在国内发生股灾期间,取得了不错的成绩,从此幻方量化逐渐走入大众视野,被人们熟知。
梁文锋说:对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。那之后,我们也会有意识地去部署尽可能多的算力
GPU提供的算力决定了他们能做多大的规模,他一直好奇,我要是有足够足够大的算力支持的时候,会是什么样子呢,而他心里,还有更加深层次的考虑
而这份好奇心,正是驱动着梁文锋在不断探索更高算力的边缘试探。他的脑海里,不止一次浮现过,当拥有1000张显卡,1万张显卡的时候,能调用的算力有多庞大
10月,幻方量化在一天内创立10支产品,两个月后,又成立另外的10支产品,快速积累提升自身的募资能力。
2016 年10月21日,幻方第一个由深度学习算法模型生成的股票仓位上线实盘交易,使用GPU进行计算。
这一年,幻方量化管理的资金规模大约10亿元。在此之前,算法主要依靠线性模型和传统机器学习算法,模型计算主要依赖于CPU。
幻方量化在这一年加入了中基协(中国证券投资基金业协会),意味着他们在行业内的专业性和规范性得到了官方认可。
叁:功成
2017 年,Transformer架构问世,奠定自然语言处理(NLP)新范式。为研究人员提供了新的研究方向和机会。
这一年幻方量化实现投资策略全面 AI 化。但是很多客户和同行都不理解,觉得他们就是打着用AI做量化交易噱头,不过是为了募集更多资金罢了。
正如梁文锋在詹姆斯.西蒙斯唯一传记《征服市场的人》(中文版)写推荐序时的一句话:
“和很多新技术一样,量化投资刚出现的时候也是被嘲笑的对象,没有人相信计算机可以像人类一样进行投资。但西蒙斯却敏锐地预见到,随着计算机技术的发展,终有一天‘不可能’将会变成现实。”
詹姆斯.西蒙斯有“量化投资之父”之称,其创办的文艺复兴科技公司于1988年3月设立了第一支基金产品——大奖章基金(Medallion Fund)。
有数据显示,在1988—2018年这30年间,扣除5%的管理费和44%的业绩提成后,该基金获得了39.1%的年化复合收益率,为公司赚取的利润超过1000亿美元。
詹姆斯.西蒙斯算是梁文锋进入量化投资这一领域的领路人。
梁文锋说,“每当在工作中遇到困难的时候,我会想起西蒙斯的话:“一定有办法对价格建模。”
西蒙斯在去年一次接受访谈时说,文艺复兴科技只雇佣没有金融背景、与华尔街没有关系的数学家、物理学家和计算机科学家。
而这一观点也对梁文锋在后续的公司人员招募中起到很大的影响,梁文锋说:
不一定是做过这件事的人才能做这件事。幻方招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。
做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。
我们的核心团队,连我自己,一开始都没有量化经验,这一点很特殊。不能说是成功的秘密,但这是幻方的文化之一。我们不会故意回避有经验的人,但更多是看能力。
拿销售这个岗位举个例子。我们的两个主力销售,都是这个行业的素人。一个原来做德国机械品类外贸的,一个是原来在券商做后台写代码。他们进入这个行业时,没有经验,没有资源,没有积累。
而现在我们可能是唯一一家能以直销为主的大私募。做直销意味着不用给中间商分费用,同样规模和业绩下,利润率更高,很多家会试图模仿我们,但并没有成功。
截至2017 年底,幻方几乎所有的量化策略都已经采用AI模型计算。自 2008 年起就开始积累市场行情数据、金融市场其他相关数据、宏观经济等数据,累积数据量超过 10PB。
2018年,梁文锋确立幻方量化以AI为主要发展方向,这一年公司首次获得私募金牛奖。
而这一年,Open AI推出了基于Transformer架构的生成式预训练模型GPT-1
梁文锋知道,这一次,在AI科技革命上,美国又一次领先我们走在前沿了,但他坚信,我们一定不只是跟随,终有一天会反超成为领路者。
他一直在等待,等待时机成熟,同时也一直在布局他脑海里的超级算力中心。
2019年8月,幻方量化管理规模超过百亿,于是暂停旗下所有产品的申购和追加以控制规模。同年,OpenAI推出了GPT-2模型,该模型拥有15亿参数,能够生成更加自然、流畅的语言文本,并引起了业界的广泛关注。
这一年成立幻方AI Lab,要发展幻方AI Lab,算力是基础。
为满足日益增加的算力需求,梁文锋开始寻求大规模算力解决方案。因为随着交易规模的不断扩大,对于算力的需求也越来越大,最初他们托管在IDC,后来规模不断变大以后,托管无法满足算力需求了,就开始自建机房
梁文锋这几年一直不断地购买更多的GPU,这时候他手里已经有了超过1000张GPU显卡,正在酝酿着他那个庞大的超级算力中心。
2020年:OpenAI发布GPT-3,1750亿参数模型实现高质量文本生成,推动AI平民化
5月,幻方量化投资2亿元的深度学习训练平台“萤火一号”启用,计算集群搭载1100张高端显卡,每秒可以进行1.84亿亿次浮点运算(18.4PFLOPS, 32位精度),相当于4万台个人电脑算力,平均使用率超过 90%。
2021年1月,幻方AI Lab投入10亿建造的第二代超算“萤火二号”正式交付使用,搭载了1万张高端显卡,已交付的AI算力为325PFLOPS(TF32),是“萤火一号”的18倍。
就在不少AI研究人员还未意识到“万卡”已经成为通用人工智能不可逾越的软硬件壁垒时,幻方量化已经对员工调用算力不设限制。
也是在这一年的年中,幻方量化管理的私募资金突破千亿元大关,并被称为“量化四大天王”之一,私募行业甚至还有“北九坤,南幻方”之称。
幻方量化用4年时间成为了百亿量化私募,然后又仅用2年时间成为千亿级别量化私募,速度之快无人能及。
不过,也是在这一年,幻方量化业绩出现波动,低风险对冲产品出现亏损,其中有些年内跌幅超 8%。
2021年也是幻方量化从急速扩容规模转至平稳发展的分界线。从此幻方量化开始逐年减少持有资金规模。
12 月 28 日,幻方量化在官微发布说明,向投资者致歉,解释称“长周期持股波动和量化策略同质化严重,是其近期表现不佳的主要原因,公司正在调整策略以适应市场环境变化。”
2022 年 ,幻 方 量 化 整 体 收 益 率 仅0.38%。3月初,幻方量化已主动缩减规模至500亿元左右。即使遭遇了波折,幻方在合格投资者中的热度依然不减,2022年宁波幻方量化排名热搜榜第三位,仅次于林园投资和正圆投资。
不得不说,做量化交易确实很挣钱,几年时间,3万美元一张的英伟达A100显卡,梁文锋的幻方量化公司有超1万张。
他本人也理所应当实现了真正的财富自由,他匿名给自己的母校浙江大学捐款2.5亿。幻方量化公司每年也会有2-3亿的公益捐款
2022年度,幻方量化共计向慈善机构捐赠2.2138亿元。除此以外,公司员工“一只平凡的小猪”个人向慈善机构捐赠1.3800亿元。以上合计3.5938亿元均已完成打款,将支持15家慈善的23个公益项目。
而有报道称“一只平凡的小猪”就是梁文锋本人
到这里,梁文锋的人生对于大部分人来说,已经是人生赢家了,但,这才是他的“刚刚开始”
肆:再出发
2022年ChatGPT-3.5发布,展现了前所未有的交互能力。震动全世界, 仅两个月,用户数突破1亿,成为史上增长最快的应用。
一时间,所有国内的公司,只要跟AI沾边的股票都在蹭蹭涨,甚至很多公司连夜就做出来AI相关的应用
而梁文锋看到的,是中国 AI 不可能永远处在跟随的位置。我们经常说中国 AI 和美国有一两年差距,但真实的差距是原创和模仿之差。如果这个不改变,中国永远只能 是 追 随 者 ,所 以 有 些 探 索 也 是 逃 不 掉的。
2023年3月,OpenAI发布了GPT-4模型,该模型在多模态处理能力上有了重大突破,整合了文本、图像和音频处理能力。人工智能未来以来。而梁文锋已经下定决心再次出发
2023年4月14日,幻方量化在官方公众号宣布公司要成立新的研究组织,开启探索AGI本质的新征程。
为招募所需的人才,公司海报还用了法国导演、编剧特吕弗写给年轻导演的忠告:
“务必要疯狂地拥抱雄心,同时疯狂地真诚。”
梁文锋说。“我们要做的是通用人工智能,也就是AGI。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们会从这里开始,后面也会有视觉等。”
5月,38岁的梁文锋宣布要做通用人工智能(AGI)。7月,梁文锋创办了杭州深度求索人工智能基础技术研究有限公司,就是DeepSeek的公司。
梁文锋被认为是量化投资者投身AI创业的“第一人”,实际上在幻方创业时,梁文锋的公司也早就用上了AI技术。
决定做大模型,收到的不是祝贺,更多的是质疑:好好的量化不做,这么挣钱,为什么要去做大模型呢?
梁文锋说:
我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。
幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。
是啊,是怎么做而不是为什么而做?
天时:AI的时机才成熟
地利:国内拥有超过1万枚GPU的企业不超过5家,幻方是其中之一,其他全部是大厂
人和:幻方的主要班底里,很多人是做人工智能的,正好拥有大量的技术人才
正是在这样的一种环境下,我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。
是一种舍我其谁的的态度去做大模型,天时地利人和,时机已然成熟。
梁文锋说:
过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。
但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
真正的差距不是一年或两年,而是原创和模仿之差
他觉得,不应该坐享其成,也应该疯狂投入到做技术创新和研发中,成为贡献者。
2024年5月,39岁的梁文锋带领深度求索(DeepSeek)发布了混合专家语言模型DeepSeek-V2。
DeepSeek-V2的API定价为每百万tokens输入1元、输出2元,价格仅为GPT-4 Turbo的百分之一。模型发布后,字节跳动、阿里巴巴、百度、腾讯等大厂纷纷宣布大模型产品降价。
梁文锋认为,无论是API还是AI,都应该是普惠的,人人可以用得起的。他强调技术应该服务于大众,而不是仅仅为了商业利益。这种理念体现在DeepSeek的定价策略上,他们通过降低大模型的API价格,推动了整个行业的价格战,使得更多人能够负担得起AI技术。
因此,深度求索(DeepSeek)公司也被称为AI界的拼多多。
2024年12月26日,梁文锋又带领深度求索(DeepSeek)公司发布了DeepSeek-V3,并且还公开了由梁文锋、罗福莉等人撰写的53页论文《DeepSeek-V3 Technical Report》。
deepseek如何才能变现呢?
梁文锋没想好,他说:
过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。
我们现在想的是,后边可以把我们的训练结果大部分公开共享,这样可以跟商业化有所结合。我们希望更多人,哪怕一个小 app都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断
所以,这一次,一种好奇心驱动。从远处说,去验证一些猜想。比如理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。
1月27日的新模型DeepSeek-R1再度让DeepSeek登顶了苹果中国及美国地区应用商店的免费应用榜,其在美区下载榜上超越了ChatGPT,成为广大用户关注的焦点。被硅谷称为“来自东方的神秘力量”。
在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。
当别人都觉得创新烧钱,挣不到钱的时候,梁文锋带着团队坚持去做研究和创新。
他认为:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。
当的科技公司招聘看经验,梁文锋深受西蒙斯的影响,招人只看能力和热爱,不看经验:
DeepSeek也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个idea显示出潜力,我们也会自上而下地去调配资源。
我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
华尔街大佬都在猜测,梁文锋团队一定挖掘了什么深不可测的人才的时候,梁文锋说:
并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
做出来deepseek-V2大模型的团队,甚至没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
伍:结尾
创新首先是一个信念问题。
梁文锋说:为什么硅谷那么有创新精神?首先是敢。
Chatgpt出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信。这种信心通常在年轻人身上更明显。
而现在的他们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。
其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。梁文锋在做最难的事,对他们就是有吸引力的。
以后硬核创新会越来越多。
现在可能还不容易被理解,是因为整个社会群体需要被事实教育。
当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
OpenAI也不是神,不可能一直冲在前面。
当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。
来源:任品微信号
1、本文只代表作者个人观点,不代表本站观点,仅供大家学习参考;
2、本站属于非营利性网站,如涉及版权和名誉问题,请及时与本站联系,我们将及时做相应处理;
3、欢迎各位网友光临阅览,文明上网,依法守规,IP可查。
作者 相关信息
内容 相关信息
• 昆仑专题 •
• 高端精神 •
• 新征程 新任务 新前景 •
• 习近平治国理政 理论与实践 •
• 国策建言 •
• 国资国企改革 •
• 雄安新区建设 •
• 党要管党 从严治党 •