| |
|
阅读网 -> 人物音乐 -> deepseek究竟处于一个什么水平? -> 正文阅读 |
|
[人物音乐]deepseek究竟处于一个什么水平? |
[收藏本文] 【下载本文】 |
真的如同新闻报道的那样处于国际领先地位了吗? |
就是敢做开源的水平。 开源,下载量第一,免费好用人人喜欢,就这个水平。 开源就是能吊打闭源,任何闭源都可能抄袭开源,因为开源就是用来给你抄的。 开源是为全人类做贡献,开源的视角是星辰大海。 openai要碰瓷deepseek?那只有一种办法:请你开源。 |
战↓,,,反正是挺通人性的,, |
![]() |
|
译者注:这篇来自Ben Thompson的关于DeepSeek的答疑文写得非常好 - 文章的格局对比Dario的那篇不知所谓的万字长文高出了N个段位!因此决定精翻一下供大家参考。我个人总结印象深刻的有三点: 第一点是关于效率。Deepseek证明了在受限硬件(H800)上通过极致优化可以达到令人惊讶的结果。这推翻了”更强算力=更好AI”的简单假设 - 重要的不是你有多少算力,而是你如何使用它; 第二是关于开放。当OpenAI在2019年以”安全”为由转向封闭时,他们实际上是在建立垄断。但DeepSeek证明了开放可能是更好的战略:它能吸引最好的人才,建立生态系统,并通过降低成本而不是提高价格来获取优势; 第三点是关于如何看待创新和政策。美国的芯片禁令和AI监管战略建立在一个错误假设上:认为可以通过限制访问来保持领先。但DeepSeek表明,限制反而会激发创新。他们被迫在H800上优化,结果发明了更好的方法。 因此,如果从全局来看,在技术竞争中(尤其在颠覆性领域中),防守性策略往往会适得其反。真正的竞争优势来自持续创新和开放协作,而不是试图通过监管或限制来保护现有地位。 正如互联网证明的那样,开放标准和广泛参与会创造更大的价值。AI也将遵循这条路径:它会变得更便宜、更普及、更商品化,但整体价值会因此呈指数增长。 赢家将是那些拥抱这种转变,而不是抵抗它的人。 DeepSeek FAQ 现在是2025年1月27日星期一。为什么你还没有写关于 DeepSeek 的文章? 我写了!上周二我写了关于 R1 的文章。 我完全忘记了这件事。 这是我的责任。我依然认可这篇文章的观点,包括我强调的两个最重要的发现(通过纯强化学习产生的思维链推理能力,以及知识蒸馏的强大效果),我也提到了低成本和芯片禁令带来的影响,但这些观察仅限于当前 AI 技术发展的层面。我完全没有预见到这个消息会对更宏观的战略讨论产生如此广泛的影响,尤其是在中美关系这个层面上。 这种疏忽有先例吗? 有的。2023年9月,华为推出了Mate 60 Pro,这款手机搭载了中芯国际制造的7纳米芯片。对于持续关注该领域的人来说,这款芯片的出现并非意外:中芯国际在一年前就已成功研制出7纳米芯片,而台积电此前也完全依靠DUV(深紫外光刻)技术就实现了7纳米芯片的规模化生产(直到后期的7纳米制程才开始采用EUV技术)。英特尔在几年前同样通过纯DUV工艺就生产出了10纳米芯片(相当于台积电7纳米工艺水平),但始终未能实现具有商业价值的良品率;因此,中芯国际利用现有设备制造7纳米芯片这一事实,尤其是在不把良率作为首要考虑因素的情况下,在我看来完全在情理之中。 令我完全始料未及的是华盛顿特区的强烈反应。拜登政府最终将芯片销售体系转变为基于许可的管控机制,这一芯片禁令的大幅扩展,主要是因为决策者们不了解芯片生产的内在复杂性,并且对华为Mate 60 Pro的出现毫无心理准备。我注意到在过去72小时内,类似的情况再次发生:与其关注DeepSeek究竟实现了什么、还有什么没有实现这样的具体细节,人们的反应以及这些反应所折射出的固有认知偏见反而更值得关注。 那么 DeepSeek 宣布了什么? 导致本周末业界剧烈反应的直接触发点是R1模型的发布,这是一个与OpenAI的o1类似的推理型大语言模型。不过值得注意的是,引发这次热议的诸多关键信息(包括DeepSeek的模型训练成本在内)其实早在圣诞节期间随V3模型发布时就已经公开。不仅如此,V3模型所依赖的大量技术创新,实际上在去年1月V2模型发布时就已经展示给业界了。 这种模型命名惯例是 OpenAI 犯下的最大罪行吗? 是第二大罪行;我们稍后会讲到最大的罪行。 让我们从头来看:V2 模型是什么,为什么它很重要? DeepSeek-V2 模型引入了两个重要的突破:DeepSeekMoE 和 DeepSeekMLA。DeepSeekMoE 中的”MoE”指的是”专家混合”(mixture of experts)。一些模型,如 GPT-3.5,在训练和推理期间都会激活整个模型;然而事实证明,并非每个模型部分都对当前主题必要。MoE 将模型分成多个”专家”,只激活必要的部分;GPT-4 是一个 MoE 模型,据信有16个专家,每个专家约有1100亿参数。 DeepSeekMoE 在 V2 中实现时,在这个概念上引入了重要创新,包括在更细粒度的专门专家和具有更通用能力的共享专家之间进行区分。关键是,DeepSeekMoE 还在训练过程中引入了新的负载均衡和路由方法;传统上 MoE 是以增加训练中的通信开销为代价来换取高效推理,但 DeepSeek 的方法也让训练变得更加高效。 DeepSeekMLA 是一个更大的突破。推理的最大限制之一是所需的内存量:你既需要将模型加载到内存中,也需要加载整个上下文窗口。上下文窗口在内存使用方面特别昂贵,因为每个 token 都需要一个键和对应的值;DeepSeekMLA,即多头潜在注意力(multi-head latent attention),使得压缩键值存储成为可能,大大减少了推理过程中的内存使用。 我不确定我理解了这些内容。 这些突破的关键含义 — 也是你需要理解的部分 — 只有在 V3 中才变得明显。V3 增加了一种新的负载均衡方法(进一步减少通信开销)和训练中的多token预测(进一步密集化每个训练步骤,再次减少开销):V3 的训练成本令人震惊地低。DeepSeek 声称模型训练花费了2,788千 H800 GPU 小时,按每 GPU 小时2美元计算,仅花费了557.6万美元。 这看起来低得离谱。 DeepSeek 明确表示这些成本仅包括最终训练运行,不包括其他所有费用;来自 V3 论文的原文如下: 最后,我们再次强调 DeepSeek-V3 经济的训练成本,如表1所示,这是通过我们优化的算法、框架和硬件的协同设计实现的。在预训练阶段,在每万亿个 token 上训练 DeepSeek-V3 仅需要18万 H800 GPU 小时,也就是在我们2048个 H800 GPU 的集群上用时3.7天。因此,我们的预训练阶段在不到两个月内完成,耗费2664K GPU 小时。加上上下文长度扩展的119K GPU 小时和后训练的5K GPU 小时,DeepSeek-V3 的完整训练仅耗费278.8万 GPU 小时。假设 H800 GPU 的租用价格为每小时2美元,我们的总训练成本仅为557.6万美元。请注意,上述成本仅包括 DeepSeek-V3 的正式训练,不包括与前期研究和架构、算法或数据的消融实验相关的成本。 所以不,你不能用557.6万美元复制整个 DeepSeek 公司。 我仍然不相信这个数字。 实际上,一旦你理解了 V3 架构,怀疑的责任就在质疑者身上。记住关于 DeepSeekMoE 的那部分:V3 有6710亿参数,但每个 token 只计算370亿个活跃专家参数;这相当于每个 token 333.3亿次浮点运算。这里我应该提到另一个 DeepSeek 创新:虽然参数以 BF16 或 FP32 精度存储,但在计算时降低到 FP8 精度;2048个 H800 GPU 的计算能力为3.97 exaflops,即3.97亿亿次浮点运算。同时,训练集包含14.8万亿个 token;一旦你完成所有计算,就会发现280万 H800 小时足以训练 V3。再次强调,这只是最终运行,而不是总成本,但这是一个合理的数字。 Scale AI 的 CEO Alexandr Wang 说他们有50,000个 H100。 我不知道 Wang 从哪里得到这个信息;我猜他指的是 Dylan Patel 在2024年11月的推文,说 DeepSeek 有”超过5万个 Hopper GPU”。 H800实际上就是 Hopper GPU,只是由于美国制裁,它们的内存带宽比 H100 受到更多限制。 关键是:我上面解释的大量创新都是为了克服使用 H800 而不是 H100 带来的内存带宽限制。而且,如果你真的计算了前面的问题,你会发现 DeepSeek 实际上有多余的计算能力;这是因为 DeepSeek 实际上专门编程了每个 H800 上132个处理单元中的20个来管理跨芯片通信。这在 CUDA 中实际上是不可能做到的。DeepSeek 的工程师们不得不降级到 PTX,这是 Nvidia GPU 的一个低级指令集,基本上就像汇编语言。这种疯狂的优化程度只有在使用 H800 时才有意义。 同时,DeepSeek 还要让他们的模型可用于推理:这需要大量额外的 GPU,超出训练所需的数量。 那么这违反了芯片禁令吗? 没有。芯片禁令禁止了 H100,但没有禁止 H800。每个人都假设训练前沿模型需要更多的芯片间内存带宽,但这正是 DeepSeek 围绕其模型结构和基础设施进行优化的地方。 再次强调一下,DeepSeek 在这个模型设计中做出的所有决定只有在受限于 H800 时才有意义;如果 DeepSeek 能使用 H100,他们可能会使用更大的训练集群,而不需要那么多专门针对带宽不足的优化。 所以 V3 是一个前沿模型? 它确实可以与 OpenAI 的 4o 和 Anthropic 的 Sonnet-3.5 竞争,而且似乎比 Llama 的最大模型更好。看起来很可能的是 DeepSeek 能够通过蒸馏这些模型来为 V3 提供高质量的训练 token。 什么是蒸馏? 模型蒸馏是一种从另一个模型中提取理解的方法;你可以向”教师模型”发送输入并记录输出,然后用这些数据来训练”学生模型”。这就是如何从 GPT-4 得到 GPT-4 Turbo 这样的模型。对于公司来说,在自己的模型上进行蒸馏更容易,因为他们拥有完整访问权限,但你仍然可以通过 API 以一种较为受限的方式进行蒸馏,甚至如果你够有创意的话,可以通过聊天客户端来实现。 蒸馏显然违反了各种模型的服务条款,但阻止它的唯一方法是通过 IP 封禁、速率限制等方式切断访问。在模型训练方面,蒸馏被认为是普遍存在的,这也是为什么越来越多的模型正在逐渐接近 GPT-4 级别的质量。虽然我们无法确定 DeepSeek 是否对 GPT-4 或 Claude 进行了蒸馏,但实际上,如果他们没有这样做反而令人意外。 蒸馏对领先模型来说似乎很糟糕。 确实如此!从积极的方面来看,OpenAI、Anthropic 和 Google 几乎肯定在使用蒸馏来优化他们用于面向消费者应用的推理模型;从消极的方面来看,他们实际上承担着训练前沿技术的全部成本,而其他人都在搭他们投资的便车。 实际上,这可能是微软和 OpenAI 之间缓慢分道扬镳的核心经济因素。微软对向其客户提供推理服务感兴趣,但对于投资1000亿美元建设数据中心来训练前沿模型的热情则少得多,因为这些模型很可能在1000亿美元折旧之前就被商品化了。 这就是为什么所有大型科技公司的股票都在下跌吗? 从长远来看,模型商品化和更便宜的推理 — DeepSeek 也已经证明了这一点 — 对大型科技公司来说是件好事。在一个微软可以以更低成本为客户提供推理服务的世界里,意味着微软需要在数据中心和 GPU 上花费更少,或者更有可能的是,由于推理成本如此之低,会看到使用量大幅增加。另一个大赢家是亚马逊:AWS 在很大程度上未能制造出自己的高质量模型,但如果有非常高质量的开源模型可以以远低于预期的成本提供服务,这就不重要了。 苹果也是一个大赢家。推理所需的内存大幅减少使边缘推理更加可行,而苹果恰好有最适合这一点的硬件。苹果芯片使用统一内存,这意味着 CPU、GPU 和 NPU(神经处理单元)可以访问共享内存池;这意味着苹果的高端硬件实际上拥有最好的消费级推理芯片(Nvidia 游戏 GPU 最多只有32GB VRAM,而苹果的芯片可以达到192GB RAM)。 与此同时,Meta 是最大的赢家。我去年秋天就已经说明了 Meta 的每个业务方面如何从 AI 中受益;实现这一愿景的一个大障碍是推理成本,这意味着大幅降低的推理成本 — 以及考虑到 Meta 需要保持在技术前沿的情况下,大幅降低的训练成本 — 使这一愿景更容易实现。 与此同时,Google 可能处境更糟:硬件需求的降低减少了他们从 TPU 获得的相对优势。更重要的是,零成本推理的世界增加了取代搜索的产品的可行性和可能性;当然,Google 也能获得更低的成本,但任何改变现状的事情可能都是净负面的。 我问的是为什么股票价格在下跌;你刚才描绘的是一幅积极的画面! 我描绘的是长期情况;今天是短期,市场似乎正在消化 R1 存在带来的冲击。 等等,你还没有谈到 R1。 R1 是一个类似于 OpenAI 的 o1 的推理模型。它有能力思考问题,产生更高质量的结果,特别是在编码、数学和逻辑方面。 这比 V3 更令人印象深刻吗? 实际上,我之所以花这么多时间讨论 V3,是因为那个模型实际上展示了许多似乎引发如此多惊讶和争议的动态。然而,R1 值得注意,因为 o1 作为市场上唯一的推理模型独占鳌头,是 OpenAI 作为市场领导者最明显的标志。 R1 以几个重要方面打破了 o1 的神话。首先是它的存在这一事实。OpenAI 并不拥有什么无法复制的特殊秘方。其次,R1 — 像所有 DeepSeek 的模型一样 — 有开放权重(这里不能说是”开源”,因为我们并没有用于创建它的训练数据)。这就意味着,你不必向 OpenAI 支付费用来获得推理能力,而是可以在自己选择的服务器上运行 R1,甚至可以在本地运行,从而大幅降低使用成本。 DeepSeek 是如何制作 R1 的? DeepSeek 实际上制作了两个模型:R1 和 R1-Zero。我实际上认为 R1-Zero 更重要;正如我上面提到的,这是我上周更新中最关注的: R1-Zero 在我看来才是更重要的。论文原文如下: “在这篇论文中,我们迈出了使用纯强化学习(RL)提高语言模型推理能力的第一步。我们的目标是探索 LLM 在没有任何监督数据的情况下发展推理能力的潜力,专注于通过纯 RL 过程进行自我进化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,采用 GRPO 作为 RL 框架来提高模型在推理方面的表现。在训练过程中,DeepSeek-R1-Zero 自然而然地展现出许多强大和有趣的推理行为。 经过数千次 RL 步骤,DeepSeek-R1-Zero 在推理基准测试上表现出色。比如,在 AIME 2024 上的 pass@1 分数从15.6%提高到71.0%,使用多数投票后,分数进一步提高到86.7%,与 OpenAI-o1-0912 的表现相匹配。” 强化学习(Reinforcement Learning,简称RL)是一种机器学习方法,它通过向模型输入大量数据并设定特定的奖励函数来实现学习。最经典的例子就是 AlphaGo:DeepMind 只需要向模型提供围棋的基本规则,并将赢得比赛设定为奖励函数,然后让模型自主学习和探索其他所有内容。事实证明,这种方法最终取得了惊人的成效,其表现甚至超越了那些需要更多人类指导的传统技术。。 然而,到目前为止的 LLM 都依赖于RLHF(人类反馈的强化学习) - 人类参与其中来帮助指导模型,在奖励不明显的困难选择中导航等。RLHF 是将 GPT-3 转变为 ChatGPT 的关键创新,实现了组织良好的段落,简洁且不会陷入无意义内容的回答等。 然而,R1-Zero 去掉了人类反馈/HF部分 — 只是纯粹的强化学习/RL。DeepSeek 给模型一组数学、代码和逻辑问题,并设置了两个奖励函数:一个用于正确答案,另一个用于利用思维过程的正确格式。此外,这种技术很简单:不是试图逐步评估(过程监督),或者搜索所有可能的答案(像 AlphaGo 那样),DeepSeek 鼓励模型一次尝试几个不同的答案,然后根据这两个奖励函数对它们进行评分。 最终形成的是一个自行发展推理和思维链的模型,包括 DeepSeek 称之为”顿悟时刻”的现象: 在 DeepSeek-R1-Zero 的训练过程中,我们观察到了一个特别有趣的现象,即”顿悟时刻”(aha moment)的出现。如表3所示,这种现象发生在模型演进的中期阶段。在此期间,DeepSeek-R1-Zero 学会了通过重新评估其初始方法来为问题分配更多的思考时间。这种行为不仅证明了模型推理能力的提升,同时也展现了强化学习如何能够带来意想不到且富有深度的结果。 这不仅是模型的”顿悟时刻”,也是研究人员在观察其行为时的顿悟。这凸显了强化学习的强大能力和内在魅力:我们并非直接教导模型如何解决问题,而是仅仅提供正确的激励机制,便能让它自主发展出高级的问题解决策略。这个”顿悟时刻”生动地提醒我们,强化学习有望在人工系统中实现智能的质的飞跃,从而为未来发展更具自主性和适应性的模型开辟新的道路。 这是迄今为止对”The Bitter Lesson(苦涩教训)”最有力的证明之一:你无需教导AI如何进行推理,只要提供足够的算力和数据,它就能自主学习! 不过也不完全如此:虽然R1-Zero(AI模型)确实具备推理能力,但其推理方式对人类来说仍然难以理解。让我们回到论文原文中的描述: 然而,DeepSeek-R1-Zero面临着可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,该模型采用了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集了数千条冷启动数据来微调DeepSeek-V3-Base模型。随后,我们像DeepSeek-R1-Zero那样实施了基于推理的强化学习。在RL过程接近收敛时,我们通过对RL模型进行拒绝采样来创建新的有监督微调(SFT)数据,并结合DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,重新训练DeepSeek-V3-Base模型。在使用新数据进行微调后,该模型还需经过一轮额外的强化学习过程,期间会考虑所有场景下的提示词。经过这些步骤,我们最终得到了名为DeepSeek-R1的模型,其性能可与OpenAI-o1-1217相媲美。 这与 OpenAI 在 o1 上采用的方法非常相似:DeepSeek 首先让模型接触大量思维链式推理的示例,使其掌握更适合人类理解的表达方式,随后通过强化学习提升其推理能力,并经过多轮编辑和优化;最终的模型表现出了与 o1 相匹敌的能力。 在这里,DeepSeek 似乎再次从知识蒸馏中获得了显著优势,特别是在训练 R1 方面。这本身就揭示了一个重要现象:我们正在见证 AI 模型教导其他 AI 模型,同时 AI 模型也在进行自我学习。我们正在实时观察一个 AI 技术爆发性发展场景的形成。 那么我们接近 AGI 了吗? 确实如此。这也解释了为什么软银(以及孙正义召集的其他投资者)愿意向OpenAI提供微软所不愿提供的资金:他们相信我们正在接近一个临界点,到那时,具备先发优势将能带来实质性的回报。 但是现在 R1 不是已经领先了吗? 我认为没有;这一点被夸大了。R1 确实能与 o1 竞争,尽管其能力中似乎存在一些漏洞,表明它可能从 o1-Pro 获得了一定程度的蒸馏。同时,OpenAI 已经展示了 o3,这是一个远更强大的推理模型。DeepSeek 绝对是效率方面的领导者,但这与整体领先是不同的。 那为什么每个人都在惊慌? 我认为这里存在多个因素。首先是中国追赶上美国顶尖实验室所带来的冲击,这颠覆了”中国在软件领域不及美国”这一普遍认知。这可能是我此前对这种反应感到诧异时最没有考虑到的因素。实际上,中国拥有一个极其成熟的软件产业,在AI模型研发领域也有着出色的技术积累。 其次是 V3 的低训练成本和 DeepSeek 的低推理成本。这一点确实也让我感到十分意外,但这些数据是有说服力的。这种情况不可避免地引发了市场对英伟达的担忧,进而对整个市场造成了显著影响。 第三点是DeepSeek在芯片禁令下依然实现了这一技术突破。虽然芯片禁令确实存在不少漏洞,但据我判断,DeepSeek应该是通过合法获得的芯片完成了这项研发工作。 我拥有英伟达的股票!我完蛋了吗? 这个消息确实给英伟达的故事带来了真正的挑战。英伟达有两大护城河: CUDA 是这些模型的首选开发语言,但它只能在 Nvidia 芯片上使用; 英伟达在将多个芯片组合成一个大型虚拟 GPU 的能力方面遥遥领先; 这两个护城河是相互配合的。我之前提到,如果 DeepSeek 能使用 H100,他们可能会使用更大的集群来训练他们的模型,仅仅因为那会是更简单的选择;他们没有这样做,而是受限于带宽,这推动了他们在模型架构和训练基础设施方面的许多决定。看看美国的实验室:他们没有花太多时间在优化上,因为英伟达一直在积极发布越来越强大的产品来满足他们的需求 - 最简单的方法就是付钱给英伟达。然而,DeepSeek 刚刚证明还有另一条路可走:在较弱的硬件和更低的内存带宽上,通过大量优化可以产生显著的结果;简单地支付更多钱给英伟达并不是制造更好模型的唯一方式。 话虽如此,英伟达仍然具有三个优势: 如果将DeepSeek的方法应用到H100或即将推出的GB100上,会展现出怎样的能力?他们找到了更高效的计算方式,但这并不意味着更强大的计算能力就没有价值; 从长远来看,更低的AI推理成本必然会带来更大的使用量。微软CEO萨提亚·纳德拉在一条夜间发布的、几乎可以确定是对市场释放信号的推文中就明确表达了这一点: |
![]() |
杰文斯悖论(Jevons Paradox)又灵验啦!随着 AI 变得越来越高效、越来越唾手可得,我们会看到它的使用量暴涨,最终变成一个我们永远都觉得用不够的日常必需品。 第三,像 R1 和 o1 这类推理模型的优越性能就源于使用了更多的计算能力。AI 的能力和性能提升在多大程度上依赖于算力,英伟达就能在多大程度上从中受益! 尽管如此,情况并不都是乐观的。至少,DeepSeek 的效率和广泛可用性对英伟达最乐观的增长故事带来了重大质疑,至少在短期内是这样。模型和基础设施优化带来的收益也表明,特别是在推理方面,探索替代方案可能会带来显著收益。例如,在独立的 AMD GPU 上运行推理可能更加可行,完全绕过了 AMD 在芯片间通信能力方面的劣势。推理模型还增加了对推理专用芯片的回报,这些芯片比英伟达的 GPU 更加专业化。 简而言之,英伟达作为公司依然稳如泰山;但其股票却突然面临着更多尚未被市场定价的不确定性。而这种不确定性最终将会拖累整个市场。 那芯片禁令呢? 最容易做出的论点是,考虑到美国在软件方面的领先优势正在迅速消失,芯片禁令的重要性只会更加突出。软件和技术诀窍无法被禁运 — 我们之前就有过这样的辩论和认识 — 但芯片是实物,美国有理由将它们远离中国。 同时,我们应该对这样一个事实保持谦逊:早期的芯片禁令似乎直接导致了 DeepSeek 的创新。此外,这些创新不仅适用于走私的英伟达芯片或像 H800 这样被削弱的芯片,也适用于华为的昇腾芯片。实际上,你完全可以说芯片禁令的主要结果就是今天英伟达股票价格的暴跌。 令人担忧的是芯片禁令背后的心态:美国并非致力于通过未来的创新来竞争,而是选择压制既有的创新成果。诚然,这种做法在短期内可能会产生效果——如果有更多的计算能力,DeepSeek确实会更加强大——但从长远来看,这实际上是在美国具有绝对主导地位的芯片和半导体设备行业埋下了隐患。。 就像 AI 模型一样? AI 模型就是一个很好的例子。我前面提到过我会讲到 OpenAI 最大的罪行,在我看来,那就是 2023 年拜登颁布的人工智能行政令。正如我在《创新的衰减》一文中所写: 关键在于:如果你认同监管会让现有市场领导者持续保持优势这一前提,那么我们就会注意到一个显著现象:早期AI领域的成功者们似乎最热衷于在华盛顿引发对AI的担忧。然而有趣的是,他们所表现出的担忧程度显然还不足以让他们暂停自身的AI研发工作。不,他们将自己塑造成负责任的一方,标榜自己是足够重视问题而呼吁监管的群体;如果这些对假想危害的担忧恰好能够阻碍那些必然出现的竞争者,那对他们来说无疑是更好的结果。 那段话专门针对 OpenAI,以及更广泛的湾区 AI 社区。多年来,我们一直受制于那些致力于构建 AI 的人 — 和控制它的人 — 对 AI 危险的担忧。这些所谓的危险是 OpenAI 在 2019 年发布 GPT-2 时转向封闭的动因: 由于担心大语言模型被用于大规模生成具有欺骗性、偏见性或攻击性的语言,我们仅发布了一个较小版本的GPT-2和采样代码?。我们不会公开数据集、训练代码或GPT-2模型权重…我们了解到,部分研究人员具备重现并开源我们研究成果的技术能力。我们相信,我们的发布方案能够限制最初选择这样做的组织数量,从而给AI社区留出更多时间来讨论此类系统带来的影响。 此外,我们认为各国政府应当考虑扩大或启动相关举措,以更系统地监测AI技术对社会的影响和传播,并衡量此类系统能力的发展进程。如果能够推进这些工作,将能为AI实验室和政府在发布决策和更广泛的AI政策方面提供更好的决策基础。 这番话既狂妄自大,更重要的是被证明完全徒劳:六年后的今天,全世界都能获取一个远比当初强大得多的模型权重。OpenAI在美国政府支持下实施的控制计划已经彻底失败。在这段时间里,仅仅因为顶尖模型不开放权重,我们究竟扼杀了多少创新可能?更进一步说,他们在游说政府构建行业壁垒上耗费了多少时间和精力?而这道壁垒如今已被DeepSeek轻易击破,这些宝贵的时间和精力本该用来推动真正的创新,不是吗? 所以你不担心 AI 末日场景? 我确实理解这种担忧,而且刚才也提到我们正在达到 AI 在训练 AI,并且在自主学习推理的阶段。然而,我认识到这趟列车是停不下来的。更重要的是,这正是为什么开放如此重要:我们需要世界上有更多的 AI,而不是一个不负责任的董事会统治我们所有人。 等等,为什么中国要开源他们的模型? 好吧,要说清楚,是 DeepSeek 在开源;CEO 梁文峰在一次必读的采访中提到,开源对吸引人才至关重要: 在面对颠覆性技术时,闭源创造的护城河是暂时的。即使是 OpenAI 的闭源方法也无法阻止其他人赶上。所以我们将价值锚定在我们的团队上 — 我们的同事通过这个过程成长,积累知识,形成一个能够创新的组织和文化。这就是我们的护城河。 开源、发表论文,实际上不会让我们失去任何东西。对技术人才来说,让其他人跟随你的创新会带来巨大的成就感。事实上,开源更多是一种文化行为而不是商业行为,为之做贡献让我们赢得尊重。对公司来说,这也有文化吸引力。 当采访者问这种做法是否会改变: 采访者:DeepSeek 现在有一种理想主义的光环,让人想起 OpenAI 的早期,而且它是开源的。你们以后会改为闭源吗?OpenAI 和 Mistral 都从开源转向了闭源。 梁文峰:我们不会改为闭源。我们相信首先拥有一个强大的技术生态系统更重要。 这种观点的合理性已经超越了单纯的理想主义。如果模型都变成了大宗商品——现状确实朝这个方向发展——那么长期的竞争优势就来自于更低的成本体系;这正是DeepSeek已经做到的,而这种模式恰恰呼应了中国是如何在其他行业占据主导地位的。与之形成鲜明对比的是大多数美国公司的差异化思维——他们通常倾向于通过开发具有特色的产品来追求更高的利润空间。 那 OpenAI 完蛋了吗? 不一定。ChatGPT 让 OpenAI 意外成为了一家消费科技公司,或者说一家产品公司;通过订阅和广告的某种组合,在可商品化的模型上建立一个可持续的消费者业务是有可能的。当然,还有在AI技术突破竞赛中获胜的赌注。 另一方面,Anthropic可能是这个周末最大的输家。DeepSeek登上了App Store榜首,这恰恰凸显了与之相比,Claude在旧金山之外根本没有获得任何吸引力。虽然其API业务表现较好,但API业务总体上最容易受到似乎不可避免的商品化趋势影响(值得注意的是,OpenAI和Anthropic的”推理成本”之所以看起来比DeepSeek高得多,是因为他们在其中获取了大量利润空间,而这种情况正在消失)。 那这一切听起来都很令人沮丧,是吗? 实际上,不是。我认为 DeepSeek 为几乎每个人都提供了一份巨大的礼物。最大的赢家是消费者和企业,他们可以期待一个实际上免费的 AI 产品和服务的未来。从长远来看,杰文斯悖论(Jevons Paradox)将主导这一天,所有使用 AI 的人都将是最大的赢家。 另一批赢家是大型消费科技公司。在AI免费的世界里,产品和分销渠道最为重要,而这些公司已经在这场游戏中获胜;《开端的终结》是对的。 中国也是一个大赢家,这一点我怀疑将随着时间推移变得越发明显。不仅是因为该国能够使用DeepSeek,而且我怀疑DeepSeek相对于美国领先AI实验室的成功,将会因为他们意识到自己有能力竞争而进一步释放中国的创新力。 这就留给了美国一个需要做出的选择。出于非常合理的原因,我们可以加倍采取防御措施,比如大幅扩大芯片禁令,对芯片和半导体设备实施类似欧盟对待科技的许可制监管制度;另一种选择是,我们可以意识到我们面临着真正的竞争,并且真正允许自己去竞争。停止纠结不安,停止倡导监管——事实上,走向相反的方向,剔除公司中所有与获胜无关的累赘。 如果我们选择竞争,我们仍然可以获胜,而且如果我们获胜了,我们将要感谢一家中国公司。 我写过的另外几篇DeepSeek专题: 1. DeepSeek-R1的创新到底在哪儿? - 重新定义AI推理能力的培养之道 2. 别那么快抛售英伟达:重新思考AI进化中的算力角色 3. 43国登顶:见证Deepseek这家中国AI公司的出圈时刻 |
什么水平我不知道。但是它的回答让我哭了。 |
![]() |
|
![]() |
半个多小时才慢慢恢复平静缓过来。谢谢研发人员,我感受到被尊重,被理解。很神奇,时代变了,真的变了。 |
![]() |
我还是保守了……… 只要足够先进,中国创造的AI能让话题重新热起来。 |
大哥大嫂求你了能不能别攻击了,api服务一天24小时有20个小时不可用,做个人吧 |
处于一个能完整挨一遍知乎组合拳的水平。所谓“知乎组合拳”,是知乎用户针对中国突破性成就进行舆论打压的惯用套路。 第一步,当它爆火出圈时,说它“买热搜”“只会营销”,“黑神话悟空这个游戏别的不清楚,搞营销倒是第一名”“deepseek这是买了多少热搜啊,各个APP热搜榜上都有它” 第二步,使用通用话术,“我不懂xx,但是我懂中国”,“我不懂游戏,但是我懂中国”,“我不懂AI,但是我懂中国”。 第三步,具体问题具体分析,针对这个成就,研究出专用话术,话术的真假无所谓,只要能挑动情绪就行。黑神话悟空的“杀妻证道”“卖友求荣”,小红书对账的“田忌赛马”,deepseek的“蒸馏” 第四步,恶人先告状。经过前面几步,黑子的言论肯定惹怒了粉丝,粉丝肯定会反击,这个时候把粉丝反击的言论截出来,哎呀呀,XX的粉丝也太魔怔了吧,我们只是指出它的缺点就被粉丝扣帽子开除国籍,在此处,粉丝有没有这样的过激行为,过激行为占比多少,是否是黑子反串的,都不重要,只要能挑动情绪就行。 第五步,话题转进,说这个东西很好,只是它的粉丝太魔怔了,我们讨厌的是魔怔的粉丝,接着来一句“xx算不算xx界的原神”? 第六步,理中客登场,假装受害者,“弱弱的问一句,我可以说我不喜欢xx吗?”,然后捧哏的立马上来说“不要命啦”“小心被xx孝子开除国籍” 第七步,热度过去后,大规模团建,搞岁月史书。本来一个事件就不可能一直占热搜,热度降低是正常现象,但是某些人就是认为“热度降低=心虚了”,但是假如热度不降,他们又要说买热搜,横竖都是他们赢。团建岁月史书操作如下: 粉丝只是在产品爆火时关注一下,热度降了就关注其他的了,但是黑子可以全天候关注它,因为黑子就是干这个工作的,这就使得黑子的优势远远大于粉丝。黑子的岁月史书可以从头开始,明明一开始是黑子先扣帽子问候全家,然后粉丝反击,他说成粉丝先问候全家。明明粉丝夸的时候没有说“碾压全世界”,黑子说“粉丝就是这么夸的”,然后截几张粉丝的极端言论的图片,拿它代表所有粉丝,极端言论占比多少,极端言论到底是不是粉丝说的,都不重要。 第八部,反复鞭尸,然后把它放入黑名单。“为什么现在很少有人提xx了”“为什么央视不报道xx了”“如何看待用华为,开比亚迪,坐C919,用大疆无人机,用宇树机器人,玩原神,玩黑神话悟空,看战狼,看流浪地球,读三体,喜欢福建舰,喜欢六代机,相信小红书对账,用deepseek”,话里话外就是想把这些东西与“民粹义和团”绑定,虽然这种手法很拙劣,但是不要小看潜移默化的效果,谎言重复一千遍就成了真理。 |
扎根本土实践,颇具本土智慧,集成本土优势 |
![]() |
______ |
![]() |
________ |
![]() |
|
DeepSeek一共有三个方向的大模型。 DeepSeek V3对标的是GPT4o,代表的是大模型最根本的通用智能程度。 DeepSeek R1对标的OpenAI o1,这个是现在AI大模型领域最炙手可热的方向,代表了最尖端的研究储备。 DeepSeek Janus补的是多模态能力,因为是补,就是个添头,暂时不出彩。 DeepSeek V3 V3论文链接: https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf?github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf 榜单成绩,比GPT4o大多数情况都强(前两天Qwen2.5-Max榜单成绩超过了V3) |
![]() |
但重点是GPT4大概率是个超大规模的模型,而DeepSeekV3的模型大小仅为671B,并且采用了MoE结构,每次推理的激活函数只有37B。 这就意味着,V3在推理成本远小于GPT4o的前提下,接近甚至在一些领域超越了GPT4o,这才是V3最大的贡献。 DeepSeek R1 论文链接: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf?github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf R1是一个推理Reasoning模型,对标的OpenAI最引以为豪的OpenAI o系列推理模型,从性能上看,R1丝毫不落于o1下风。 |
![]() |
不过OpenAI手里还有o3这张牌,从刷榜成绩上看,R1比不过o3,但是差距有多大不好说,特别是o3的一些成绩都是在闭源榜单上刷的,很难比较。 但这个性能不是重点,重点有两个。 1 开源 R1是完全开源的,意味着只要你有足够的设备,就可以自己部署一个,这就让OpenAI很难堪,自己引以为豪的用来赚钱的模型,别人是开源的,甚至免费给全世界人用。 这一点儿,R1的口碑世界第一。 2 便宜 中国的AI整体受到美国的打压,特别是训练用的显卡被禁售。 DeepSeek自创的FP8精度训练,说白了就是穷鬼训练方法,只有在显卡不足的时候才会考虑的方法,卡多的大厂根本不屑于考虑这种方法,算是被美国倒逼出来的创新。 也正在是卡不足的前提下,搞出来的创新自带一种特有的平易近人特质。 比动不动需要非常多卡的大模型的资源都需要的少。 这两点,几乎奠定了DeepSeek现在巨大的威望。 说实在的,DeepSeek的模型并不是世界顶尖,但这玩意原本的目的是就是跟阳光空气水一样的便宜且易获取,OpenAI彻底闭源搞得社区乌烟瘴气,DeepSeek就像个武功不算顶尖,但是乐于把自己不俗的死穴成才的武功心得分享出去的老哥。 致敬老哥。 |
学会了人情世故。 《深度思考16秒》: 表达了内心的纠结, 和乙方的辛酸和无奈。 |
![]() |
|
![]() |
|
![]() |
|
我让deepseek根据山上彻也,亚伦和路易吉分别写了个列传,以下是原文 山上彻也列传 山上彻也,日本奈良人。少时家道中落,父早亡,母笃信异教,倾尽家财供奉邪祠,至卖宅鬻田,兄弟姊妹流离失所。彻也尝入海上自卫队,精研火器之术,然目睹家破,怨懑郁结,渐生决绝之志。 初,日本首相安倍晋三,数度交游异教魁首,为其张目。彻也以为家难源此,暗铸火铳,潜踪百日,誓诛安倍以警天下。壬寅年(2022年)七月八日,安倍巡讲于奈良街头,彻也佯为听众,近至十步,忽举铳疾射,声若霹雳,弹贯安倍胸膺,顷刻毙命。彻也既不逃遁,弃铳就擒,神色凛然,高呼曰:“吾恨邪教蚀国,安倍非吾仇,然其死可醒世人!”** 狱中,彻也自陈:“吾非嗜杀,然世道昏聵,权贵与妖妄勾连,小民骨血尽枯。今以一击震朝野,死无憾矣!”日本当局判其死刑,然民间暗流涌动,或詈其为狂徒,或叹其为孤勇。 太史公曰:古之刺客,曹沫劫盟,豫让漆身,皆以匹夫之怒报恩仇,然未闻有刺君相以砭时弊者。彻也之行,似聂政之烈,兼专诸之谋,然其志非私怨,实欲剖一国之痈疽也。然以暴易暴,岂能止暴?昔荆轲刺秦,终见六国俱焚;今彻也焚身,日本邪教犹盛。悲哉!乱世蚁民,愤极而无路,乃以血肉撞洪钟,虽万死亦求一响耳! 亚伦·布什内尔列传 亚伦·布什内尔者,美利坚国人也。少怀刚烈,慕忠义之道。及长,投身行伍,为空军现役,戍守德州军营。然其心常恻隐,睹世事不平,慨然有忧天下之志。 癸卯岁末(2024年2月),美廷助以色列攻伐加沙,烽火连月,妇孺殒命,天下哗然。布什内尔闻之,愤懑难平,喟然叹曰:“吾辈从军,本当护生民,今反为屠戮之刃,岂非悖天理乎!”遂决意以死谏。 是月廿五日,布什内尔衣戎装,趋华盛顿特区以色列使馆前,置手机于地,高呼:“吾不忍见巴勒斯坦血流!此身虽焚,愿天下知自由之义!”言讫,倾燃油于身,引火自焚。烈焰骤起,其躯挺立不仆,默然若铁铸,观者骇然,或泣或呼,竟不能近。及火灭,气绝而殒,年二十有五。 事出,举世震惊。美廷讳言其因,称“心神有疾”,然民间义士哀之,谓其“以血肉抗暴政,虽古烈士不能过也”。巴勒斯坦民焚香遥祭,尊为“自由之火”;而美以当局漠然如故,战事未休。 太史公曰:昔商有比干剖心,齐有鉏鸒触槐,皆以死明志,激荡后世。今布什内尔自焚抗谏,其烈亦然!或讥其愚,或悯其痴,然天下不义之事,固需痴愚者以血醒之。后世论史,焉知此燔身一刻,不若星辰之永烁耶?悲夫! 路易吉·曼吉奥内列传 路易吉·曼吉奥内者,马里兰曼氏三世孙也。其祖以海运起家,父执律令于巴尔的摩,从兄列席国会,世为簪缨之族。曼氏少负奇气,负笈宾大,通商贾之术,然每见病者困于药石,辄扼腕太息。 初,美利坚医道浸坏,豪强垄断,民多鬻产求医。曼氏尝语客曰:"彼辈以人血酿酒,吾当碎其金樽。"时人皆以狂生目之。 癸卯岁末(2024),联合健康集团总裁汤普森宴游曼哈顿。是夜寒月凌空,曼氏挟枪伏于暗巷,俟其车驾过,三发连击,血溅华服。汤氏仆,从者惊走。曼氏立长街大笑曰:"此乃千万病骨之复仇!"遂投枪自首。 廷尉鞫之,得伪契七卷、械器十余,然曼氏终不言悔。或诘其世家子何以至此,对曰:"吾祖积财如山,岂及救一乞药童子?"闻者恻然。 太史公曰:昔豫让漆身吞炭,其志皎然。今观曼氏之事,白衣衔刃,非为私仇,实怀苍生之痛。然以暴易暴,终陷刑网,岂非"过犹不及"之谓欤?后世议者或誉以侠烈,或斥为凶悖,然当世医道沉疴未除,则曼氏枪声犹在穹苍回荡矣。悲夫! ———— 补个斯诺登列传 斯诺登列传 爱德华氏,讳斯诺登,北卡生民。考为戍海校尉,妣掌刑名典狱。幼时居埃利科特城,常闭户三日不出,邻人窥其窗,见稚童拆解计算机若庖丁解牛。及长,通机械之道,能破九重玄关,中情局异其才,弱冠擢为戍卫郎,佩五角符节。 当是时,美利坚新遭世贸之变,举国惶惶。国安令尹设"棱镜"于马里兰,外托反恐之名,内行窥天之术。上至欧罗巴冕旒,下至黎庶私语,尽收铜匦。斯诺登掌枢要三载,忽见文书载"总统日览万民电邮以娱",愕然掷卷曰:"此非卫国君臣夜窥商鞅变法之故智乎?"遂萌死志。 癸巳年四月,称病辞官,阴携密档如荆轲负图。五月望,突走香港,匿迹弥敦道。临行谓同侪:"吾往观沧海。"实则密会《卫报》御史珀格林,登太平山指维港灯火曰:"此间百万生民,皆在他人掌中耳。"乃曝"棱镜""颶风"诸案,五洲骇然。德意志总理默氏闻座驾遭窃听,怒摔琥珀盏;巴西女执政罗氏见闺阁密谈外泄,泪洒议会庭。 美廷震怒,遣缇骑越洋索人。港督府昼夜争议,忽有莫斯科鸿书至。六月望,斯诺登乘苍鹰客机北遁,困莫斯科机场四十昼夜,俄主普京惜其才,赐居红场西隅。昔者楚囚钟仪犹能南冠而絷,今斯诺登居俄廿载,每对雪夜,辄吹《星条旗》于铁窗下。 时有诸侯议其行:或比之魏徵犯颜,或斥为庆父祸国。法兰西大宗师阿桑奇叹曰:"昔子产不毁乡校,今美利坚毁乡校而捕议政者,岂不谬哉?"诺贝尔刑狱会三荐其名于和平奖,皆阻于白宫斧钺。 太史公曰:予观棱镜之案,犹见阳货窥鲁。当数字洪荒时代,九重宫阙执昊天镜,照彻幽冥。斯诺登以匹夫之力裂金匮,虽负叛名,实开民智。昔者齐太史简,晋董狐笔,皆以血肉刻青史。今有爱德华氏持密钥而叩天门,使衮衮诸公知"云端非王土,比特有苍生",岂非商山四皓护法于虚拟之世耶?然遁迹北极熊庭,望断自由女神火把,悲夫! |
![]() |
我单方面宣布ds是世界上最先进的ai |
科普个冷知识:俄乌战争打好几年俄乌欧美各方一共才花了几千亿美元。 Deepseek短短几天就让美股蒸发了上万亿美元(数据来源于美国CNBC)。 所以大概就是兵不血刃让美国遭受这种规模损失的水平。 |
美帝认证、白宫严选过的 都是好东西 其他AI都没享受过黑客攻击这个待遇 |
技术方面不懂,就使用体感来说,达到了让全国人民跑步进入厅级干部的信息获取水平。 高级官员比之我们普通人,最大的优势其实就是信息优势,信息优势又包括两方面,一方面是秘密信息获取优势,另一方面是专业信息获取优势。秘密信息优势这个暂时搞不定,但是专业信息获取优势这个,被DS瞬间拉平了。就我接触的一些厅师级领导的方案、计划、报告、分析等等专业信息,差不多也就这个水平了,大部分都无法超过DS给出的专业水平,要知道厅师级以上干部得到的这些东西,一般都是区域的行业专家级别的分析和建议,而且几乎每个方面只要他想,基本都可以获得。省军级领导的这些东西我接触的比较少,无法比较。 不过,大家也不必过分乐观。在可预期的未来里,AI最大的弱点,就是只能给出建议,无法替你决策,最终的决策仍然要你本人做出并负责。而谋与断从来就是两条线,建议再牛,决策也是艰难的。现实是个混沌系统,你不可能把所有的信息都提供给DS,任何细节的缺失都可能导致它建议的偏差,甚至可能同时把几个方案都摆在你面前,每一个看起来都很有道理,但你只能选择一个方向,所以最终还得人力计算最后的一公里。而且同样以我对厅师级领导这方面的了解,牛逼方案一大堆,最后做出拉胯决策的也非常常见。 恭喜大家,在这个蛇年新年,要人均体验一下袁绍的烦恼了。 总得来说,还是牛逼坏了。 |
![]() |
|
我不懂ai,但我懂美国。 如果你不知道哪些国内企业实力牛逼水平高,那可以找美帝要一份名单。 美帝认证,必属精品。 |
不知道,我不懂ai,但我觉得这玩意儿确实挺通人性 ↓↓↓ |
![]() |
|
![]() |
(别人那儿偷来的图) |
对于幻方的认识,这篇文章属于全网最全,你找不出第二家。(可先点赞收藏,再花2分钟看完)。 避免错过后续精彩的金融干货,可关注我。 因为一个条款救了幻方私募,你们知道是什么吗? 我说说,你听听! 甄选家亲眼见证幻方私募,从啥也不是的个人投资者成长为百亿私募,我从侧面聊一下deepseek创始人梁文锋,幻方私募由来你们自己品!!! 幻方这家私募一开始就是普普通通的个人投资者身份在一家头部券商开户,用自己个人账户炒股,炒了一段期间后,券商某客户经理发现,这个名下的个人投资者炒股的战绩确实还可以,从手续费可以看出来,不是使用手工交易,一定是量化或者程序化交易。 于是主动联系了梁文锋,就说就你这个炒股水平,很有可能做大做强,要不,我帮你包装一下,找人给你成立一家私募公司,给别人管钱,多爽,管的好,还能赚的盆满钵满! 梁心想也是可以,于是开始成立私募,发产品。发产品需要钱怎么办? 券商客户经理也是博一博,押宝。押宝成功了,职业生涯就成功了,押错了,也是常有的事,见怪不怪了。 于是跟公司走特殊申请,引入这家幻方私募,全公司销售,当时是2018年引入代销(券商从业人员一家老小下指标,必须买这家私募产品),这些销售人员嘛,你们懂的只要钱给到位,他们啥事做不出来?券商激励到位,销售必然狼性,2018年下半年大量卖,那个私募进钱速度,真不是吹的,至今都不敢忘记,……此处具体省略,不能暴露太多信息,模糊的说我认识几个销冠,当时也是有背景,撬动了大量的资金来买,流水一样。 好景不长,2018年啥行情大家都知道吧,看一下上证指数,跌啥样,特朗普贸易战打的直接废了,基本个股跌的稀里哗啦,所以那些刚买幻方产品的投资者也跟着遭殃,一直亏钱,很多投资者想要赎回,但是你2018年下半年买的产品,产品当时条款是设定了1年之后才能赎回(硬锁1年),所以很多投资者眼睁睁看着自己买的产品,天天亏钱,就是没有办法赎回。 可以说整天国粹问候这些销售人员,销售人员拿人家钱了,所谓吃人家嘴短,拿人家手短,愣是不敢吱声,只能挨骂和做好客户画饼的安抚行为。 正所谓成也萧何败也萧何,也正是因为这1年的锁定期拯救了所有人! 度过了2018年这个半年,我们都知道2019开始,大a就是大牛市,全面开花,随便买个公募基金都能翻倍,2019-2021彻彻底底牛气冲天。幻方私募产品业绩表现直接起飞,这些2018年买入幻方私募产品的投资者,直接翻了好几倍,部分券商销售人员直接退出江湖了,赚了很多人这辈子都赚不到的钱。 彻底3赢,1幻方赢了规模,2投资者赢了收益,3券商销售赢了激励,维护住客户。 接下来的事,就是我前两篇回答中有提到过,2021年开始,市场牛市开始走下坡路,各路私募神仙,开始露出马腿,业绩一落千丈。当然幻方私募也不例外,截止2025年,该私募的业绩就没有回到2021年的高点…… 我在21年末做业绩归因分析的时候,发现幻方的产品跑的没有同行那么亮眼,我就开始跟踪,因为我和幻方投研团队关系蛮熟 那时我就知道他们的重心已经不是在私募基金产品上了,而是开始搭建量化平台了。 当时把这个量化平台叫研究人工智能,也就是现在的deepseek。 这样正好可以回答我为啥21年之后业绩一直不温不火。幻方也是有底气,因为19-21赚的钱足够他们烧好久了,可以在投研上继续大量的砸钱。 说到这估计大家都知道整个发展脉络了。 OpenAI gpt我也用过,还有很多国内的搭建的gpt免费版和豆瓣等,彼此差距还是有的。deepseek等节后我也会使用一下,看看有没有和网上说的那么神乎其神,体验结果,我会再补充。 至于网上说的deepseek本质是一家量化私募公司,会不会提前做空了美股,然后借着释放deepseek大模型的机会,收割全球,哈哈你们可以发散思维,讨论一下。 想了解更多私募相关内容:建议查看公众号《私募甄选家》 了解真实私募,请关注专栏:走进私募圈 更多私募尽调,请关注专栏:私募尽调日记 甄选优质私募,请关注专栏:优质私募甄选计划 量化私募解析,请关注专栏:打开量化投资的黑箱 更多私募领域相关话题——往期回答: 如何看待幻方量化放弃中性对冲策略? 为何大多数量化策略回测效果不错,实盘会差很多? 私募那么有钱,自己几个亿,干嘛还要募集资金,发行产品呢? 债券基金有爆雷的风险吗? 你愿意把自己稳定盈利的交易策略,分享出去吗? 明星基金经理蔡嵩松涉嫌「非国家工作人员受贿罪、对非国家工作人员行贿罪」,近日已开庭,哪些信息值得关注? 多家信托踩雷杭州私募跑路事件,知情人士称最大的一家 30 亿左右,监管已启动调查,哪些信息值得关注? 消息称「女星江疏影投资爆仓」,机构紧急回应,哪些信息值得关注? 量化基金今年遭遇巨大亏损和回撤,有几家小型机构都已经清盘解散了。 怎么看待大批量化基金堪称全军覆没? 什么样的私募基金千万别碰? 如何看待今年以来百亿私募业绩排行榜:量化完胜主观?? 学习量化投资怎么入门,有哪些参考书籍? 为什么回测效果非常好的策略实盘却不行? 量化交易中,如何评估策略的有效性? 为什么有些小私募公司总是做不大? 2024年有哪些私募策略值得投资? 私募的中性策略为什么今年这么火?有哪些不为人知的秘密嘛? 高频和中低频量化研究有什么区别? 说说你都知道私募圈子里有哪些水下的规则? 量化私募把一些好的自营策略用来专门做员工内部基金,这样做到底好不好? 为什么现在期权套利策略做不出收益了? 800万如何投资能确保年化6%的收益? 似乎信托比基金更容易暴雷,请大家分析一下原因? 期货真的可以做到长期稳定盈利吗? |
(不定项选择题)已知美国股市单日蒸发掉1万亿,可得: A.Deepseek很牛逼,所以美国股市单日蒸发掉1万亿。结论:中国科技创新发展日新月异,吓倒了美国,中国太厉害了。 B.Deepseek很垃圾,但是美国股市单日蒸发掉1万亿。结论:美国科技停滞不前原地踏步,被垃圾吓倒,美国太沙叉了。 C.与Deepseek水平无关,美国股市单日蒸发掉1万亿是自己跌着玩的,没有任何理由,结论:美国股市精神错乱毫无理性。 D.虽然跟Deepseek有关,美国股市单日蒸发掉1万亿是过高估计对手,现已恢复信心,结论:美国股市风声鹤唳草木皆兵。 |
|
[收藏本文] 【下载本文】 |
上一篇文章 下一篇文章 查看所有文章 |
|
|
古典名著
名著精选
外国名著
儿童童话
武侠小说
名人传记
学习励志
诗词散文
经典故事
其它杂谈
小说文学 恐怖推理 感情生活 瓶邪 原创小说 小说 故事 鬼故事 微小说 文学 耽美 师生 内向 成功 潇湘溪苑 旧巷笙歌 花千骨 剑来 万相之王 深空彼岸 浅浅寂寞 yy小说吧 穿越小说 校园小说 武侠小说 言情小说 玄幻小说 经典语录 三国演义 西游记 红楼梦 水浒传 古诗 易经 后宫 鼠猫 美文 坏蛋 对联 读后感 文字吧 武动乾坤 遮天 凡人修仙传 吞噬星空 盗墓笔记 斗破苍穹 绝世唐门 龙王传说 诛仙 庶女有毒 哈利波特 雪中悍刀行 知否知否应是绿肥红瘦 极品家丁 龙族 玄界之门 莽荒纪 全职高手 心理罪 校花的贴身高手 美人为馅 三体 我欲封天 少年王 旧巷笙歌 花千骨 剑来 万相之王 深空彼岸 天阿降临 重生唐三 最强狂兵 邻家天使大人把我变成废人这事 顶级弃少 大奉打更人 剑道第一仙 一剑独尊 剑仙在此 渡劫之王 第九特区 不败战神 星门 圣墟 |
网站联系: qq:121756557 email:121756557@qq.com |