英伟达最大空头出现!国内大模型横空出世,成本仅为GPT-4o的1/20

摘要:

与月之暗面、智谱AI、Minimax、百川智能等获得大厂投资的AI初创公司不同,DeepSeek与科技巨头间并无直接关系。不过,DeepSeek自身的算力储备却堪与大厂比肩。 

凤凰网科技 出品

作者|Danny

编辑|董雨晴

被热议的东方力量

神秘的东方力量再次震惊了世界,这次是大模型。

12月26日,国内私募机构幻方量化旗下的DeepSeek(深度求索)发布新一代开源大模型DeepSeek-v3,深度求索在技术报告中提到,作为一款参数量高达 671B 的大型语言模型,DeepSeek-V3在预训练阶段只用 2048 块 GPU 训练了不到 2 个月,总计 266.4 万个 GPU 小时,且只花费了 557.6 万美元(约4070.1万元人民币)

这意味着DeepSeek-V3的训练成本约为GPT-4o的二十分之一。Anthropic的CEO达里奥·阿莫迪不久前曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将上升至100亿美元甚至1000亿美元。

性能方面,据DeepSeek-V3 技术报告称,在英语、代码、数学、汉语以及多语言任务上,基础模型 DeepSeek-V3 Base 的表现非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任务上甚至远远超过其它开源大模型。就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型相比,DeepSeek-V3 也毫不逊色,并且在 MATH 500、AIME 2024、Codeforces 上都有明显优势。

广发证券分析称,DeepSeek-V3算力成本降低的原因有两点:第一,DeepSeek-V3采用的DeepSeekMoE是通过参考了各类训练方法后优化得到的,避开了行业内AI大模型训练过程中的各类问题;第二,DeepSeek-V3采用的MLA架构可以降低推理过程中的kv缓存开销,其训练方法在特定方向的选择也使得其算力成本有所降低。

行业外少有人知道的是,DeepSeek也是大模型价格战的最早发起者,被称为“AI界拼多多”。2024年5月,DeepSeek发布的DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。

在DeepSeek-V3的定价上,API定价为输入每百万tokens 0.5元(缓存命中)/2元(缓存未命中),输出每百万tokens 8元,与字节Doubao-pro-256k定价输入每百万tokens 5元,输出每百万tokens 9元的水平相当,在国产模型中性价比较高。

“今天,一家中国AI公司轻而易举地发布了一个前沿大语言模型。”著名人工智能科学家和特斯拉前人工智能和自动驾驶视觉总监、OpenAI早期成员安德烈·卡帕西(Andrej Karpathy)评价DeepSeek-V3的表现时称,“如果此模型还能通过各项评估,那么这将是资源受限条件下研究与工程能力的高度令人印象深刻的展示。”

“我一直在关注DeepSeek。去年他们拥有最好的开源编码模型之一。卓越的开源模型给前沿的大语言模型商业公司带来了巨大的压力,迫使他们加快步伐。”英伟达高级科学家范麟熙(Jim Fan)认为,在竞争激烈的人工智能领域中,生存本能是推动突破的主要动力。

千亿量化私募的AI创业

在众多中国大模型创业公司中,Deepseek的路线最不同。它的中文名是“深度求索”,为知名私募巨头幻方量化创立的子公司。

2023年4月,幻方宣布成立新组织,集中资源和力量,探索AGI的本质,在一年多时间里进展迅速。当时幻方就表示,多年以来,该公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘。

与月之暗面、智谱AI、Minimax、百川智能等获得大厂投资的AI初创公司不同,DeepSeek与科技巨头间并无直接关系。不过,DeepSeek自身的算力储备却堪与大厂比肩。

有云计算专家提出,1万枚英伟达A100芯片是做AI大模型的算力门槛。当中国云厂商受限于紧缺的GPU芯片时,幻方却早早押中了大模型赛道的入场券。据报道,除商汤科技、百度、腾讯、字节、阿里等科技巨头外,幻方也手握着超1万枚GPU。

幻方量化和Deepseek创始人梁文锋曾在媒体采访中表示,幻方对算力的储备并不突然。在2019年,幻方就已投资2亿元自研深度学习训练平台“萤火一号”,搭载了1100块GPU。到了2021年,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。一年后,OpenAI发布ChatGPT的公开测试版本,拉开全球新一轮AI热潮的序幕。

事实上,在量化投资领域,幻方也是一个特立独行的存在。幻方量化一度是中国首家突破千亿私募的量化大厂,准确的说也是迄今为止业内唯一规模曾迈过千亿大关的量化私募。

“我们做大模型,其实跟量化和金融都没有直接关系,”被媒体问及为什么一家量化基金选择入局大模型时,梁文锋解释道,“当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。”

公开资料显示,梁文锋是一个极致的80后技术理想主义者,从幻方时代,就在幕后潜心研究技术,在DeepSeek时代,依旧延续着他的低调作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。值得一提是,这家公司还曾对外招聘文科人才,职位定位为“数据百晓生”,提供人类历史、文化、科学等相关的知识来源,和数据工程师一起构建完善的世界语言知识库。

“我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。我们将充分而持续地投入,不做中庸的事,用最长期的眼光去回答最大的问题。”梁文锋曾表示。

在接受媒体《暗涌》的采访时,梁文锋表示,降价一方面是因为在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。

“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”梁文锋称。

以上就是关于【英伟达最大空头出现!国内大模型横空出世,成本仅为GPT-4o的1/20】的相关消息了,希望对大家有所帮助!

平台声明:该文观点仅代表作者本人,佐伊科技仅提供信息存储空间服务。发布者:rmltwz,转转请注明出处:https://www.rmltwz.com/shehui/25967.html

(0)
rmltwz的头像rmltwz
上一篇 2025年1月1日 上午11:46
下一篇 2025年1月1日 上午11:46

相关推荐

  • 985建筑生转行当厨师月入5500是什么体验?

    今天小编来为大家带来的是985建筑生转行当厨师月入5500让我们一起往下看看吧! 大家好,小嘟嘟分享关于985建筑生转行当厨师月入5500的最新搜索数据给大家了解下。 以上就是今日985建筑生转行当厨师月入5500搜索数据图,大家可以通过鼠标移动来看今日985建筑生转行当厨师月入5500实时搜索数据,了解热点,了解最新资讯就请关注本网。

    2024年9月6日
    15800
  • 北京今天下午阴有分散性阵雨或雷阵雨 午间体感闷热 注意防暑 周末降雨持续,出行携带雨具

    今天早晨,京城迎来了一场分散性降雨。据市气象台数据,从30日21时至31日10时期间,全市平均降水量为1.8毫米,其中城区平均为1.3毫米,西南部较高,达5.9毫米,而东北部和西北部则分别为1.3毫米和0.5毫米,东南部最少,为0.1毫米。石景山隆恩寺记录到城区最大降水量16.9毫米,全市之最则是门头沟中门寺的65.4毫米,该地区在31日05时至06时还经历…

    2024年8月31日
    23000
  • 进博会七岁了 “朋友圈”再扩大

    又到了“进博会时间”。11月5日至10日,第七届中国国际进口博览会将在上海举办。本届进博会企业展继续保持36万多平方米的超大规模,共有129个国家和地区的3496家展商参加,国别和地区数以及企业数都超过了上届。 自2018年首次举办以来,进博会不断升级扩容,已成为中国构建新发展格局的窗口、推动高水平开放的平台。从第一届到第七届,进博会的朋友圈越来越大,作为国…

    2024年11月5日
    13500
  • 外卖骑手收入披露:三线城市月均5556元,一线城市专送人员收入过万

    外卖骑手的收入状况一直是社会关注的焦点。9月19日,美团研究院公布的一组数据显示,骑手接单模式及其收入详情浮出水面。数据显示,2023年,共有745万名骑手通过接单获取收入,其中,全年接单超过260天的高频骑手占11%,约为81.95万人;接单天数在30至260天之间的低频骑手占比41%;而仅在一年内接单不超过30天的业余骑手则占到了48%。这些数据证实了外…

    2024年9月20日
    18300
  • 财政预算案2025 | C15+倡公务员冻薪兼停开新职位,10年内缩减3成人手

    【财政预算案/“C15+”/公务员/冻薪】近年香港出现千亿财赤,控制财赤成本月发表的财政预算案焦点之一。“C15+”今日(6日)会见财政司司长并提出多项建议,包括暂停各部门开设及增聘新职位,10年内缩减3成人手,以及在在财政收支未能达平衡前,冻结公务员薪酬。 吴杰庄建议健全人士领综援 金额逐年累减 选委界吴杰庄建议政府短期暂停各部门开设及增聘新职位,中长期而…

    2025年2月7日
    4900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信