阅读网 购物 网址 万年历 小说 | 三丰软件 天天财富 小游戏
TxT小说阅读器
↓小说语音阅读,小说下载↓
一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放,产品展示↓
佛经: 故事 佛经 佛经精华 心经 金刚经 楞伽经 南怀瑾 星云法师 弘一大师 名人学佛 佛教知识 标签
名著: 古典 现代 外国 儿童 武侠 传记 励志 诗词 故事 杂谈 道德经讲解 词句大全 词句标签 哲理句子
网络: 舞文弄墨 恐怖推理 感情生活 潇湘溪苑 瓶邪 原创 小说 故事 鬼故事 微小说 耽美 师生 内向 易经 后宫 鼠猫 美文
教育信息 历史人文 明星艺术 人物音乐 影视娱乐 游戏动漫 | 穿越 校园 武侠 言情 玄幻 经典语录 三国演义 西游记 红楼梦 水浒传
 
  阅读网 -> 历史人文 -> DeepSeek 到底是「蒸馏」还是「原创」? -> 正文阅读

[历史人文]DeepSeek 到底是「蒸馏」还是「原创」?

[收藏本文] 【下载本文】
英伟达主任工程师陈源博士发文称:De-e-p-S-e-ek是用模型蒸馏技术做出来的,它是通过已有的大模型蒸馏出小模型,再用少量数据对这些小模型进行微调…
在这次deepseek爆火之前,我们AI研究圈可从来没有人把蒸馏和抄袭划过等号,甚至想都没想过!
这就是一种训练方法啊,每年顶会顶刊多少跟蒸馏有关的论文?这下全成了研究偷窃技术了?建议CIA和FBI直接按论文抓捕,一区2、3作判3年,一作判5年,通讯作者7年。顶会best paper一作无期,通讯死刑立即执行!
ds开源了,那就要看closeai是不是开源了,你不开源谁知道你是不是也搞“蒸馏”呢?与其花钱找人污蔑,不如自证清白。
你们当初不是就喜欢搞“开源免罪论”嘛,一家公司再怎么作恶多端,只要开源就是伟大的。怎么现在号称Open的AI居然close了?是不是不自信?还是也是蒸馏而非原创?
美国已经测试出来,原创和蒸馏都有,原创的部分在于把效率提升了45倍,并且小型化,可以放到台式机内不联网运行。蒸馏了部分open ai。
结论是油管上 英国数学教授 非常高兴的 想在 学校里搭建deepseek,利用全学校各系拥有的大概20块H100,做独立项目。被开除的前intel总裁,在自己新设的公司里,搭建自己deepseek讽刺系统。
我也想建一个,可惜没钱
.............
有条件的,可以上油管看这个视频,里面有完整的证据显示了deepseek蒸馏openai的过程,但同时谈到,硅谷每一家生成式人工智能公司都在蒸馏openai,大家都习以为常。照片中这个人以前负责管理uber的中国团队。
整个节目中,有一段话非常有意思,他称软银的孙正义为“荡妇式投资人”,他的解释是,如果拿了孙正义的投资,那么孙正义在对你的董事会和公司了解3个月后,你会突然发现,他会给你的竞争对手也投资,将你的秘密也泄露给竞争对手 。所以孙正义找了他两次,想给这人投25亿,考虑后拒绝了。


使用蒸馏的数据进行训练和模型原创并不冲突。
不能因为特斯拉在京广高速上走过就不让比亚迪走了。
因为,路不是任何一家车企修的。
互联网上的数据,也不是任何一家大模型的。
比如某个模型可能用到了知乎的数据,但是作为知乎答主之一的我从未进行过授权,他们也不用我授权。
如果这些看不懂的话,简单来说就是,谷歌的gemini自称百度文心,没有被百度起诉


有没有一种可能,DS既不是“蒸馏”也不是“原创”。
我猜测他们可能使用了某种东西,比如说磁铁,能够把OpenAi里的东西吸到他们的内存里。
这种磁铁可能比较特殊,我不是专业的,但我相信应该有这种磁铁。
否则Deepseek不可能突然之间变成这样。
给各位小伙伴科普一下:
实际上,DeepSeek是一个聊天软件,方向是实时知识服务,背后是数十万的人工客服。
目前因为是试运行所以暂时免费。
为什么我知道?因为之前他们来我学校校招,岗位的最低要求是20个字每秒。
我由于打字速度较慢,没能加入。
众所周知,美国禁售了芯片,而DeepSeek改变了思路,用人类大脑代替硅基芯片,通过大规模部署人工客服,打出了一片新天地。美国AI需要消耗大量的能源,而DeepSeek则通过建设大量的食堂,解决了能源供应的问题,并且绕开了美国的芯片封锁。不用谢[OK]
为什么只要简单的蒸馏自己的数据就可以升级成世界最牛逼的ai,这么简单的操作,openai的工程师们一个人都想不出来。
他们的水平其实和姜萍差不多吧?
大语言模型有三个重要的提升点:训练集、算法、算力。
在进入推理模型时代后,用蒸馏来获取训练集已经成为了一种常用的做法,高校、开源组织大大方方地用,OpenAI、google之流偷偷摸摸地用。这与原创不原创无关。deepseek在算法上做了大幅改进,比GPT3.5到GPT5的改动大多了,当然算原创。
如果蒸馏是项重罪,那么OpenAI和google至少也得被判个死缓。即使如此,deepseek依旧是完全无罪的。
在道德水平方面,deepseek从来不是openai和google等龌龊的商业公司能相比的,跟它同一等级的应当是stability ai和mozilla。
OpenAI、谷歌之类:用开源和蒸馏来的数据集开发闭源模型,你要用这个闭源模型必须要付费。
stability ai、meta:用开源和蒸馏来的数据集开发开源模型,可以自己部署,它帮你推理要收费。
deepseek:用开源和蒸馏来的数据集开发开源模型,可以自己部署,它帮你推理也免费(API 除外)。
这样看来,deepseek其实是开源世界中最伟大的组织了。开发模型的义人很多,但无偿帮你推理的仅此一家。
Deepseek开源了,可以下载并且本地部署。这位英伟达主任工程师陈源博士,不可能看不懂代码吧?能看懂代码,那就拿出代码证据来吧。
皈依者狂热的典型症状就是,拿不出反驳的证据,但又不肯承认半点中国的成就。因为他一旦承认中国的任何成就,相当于承认自己的选择有多愚蠢。
北大和中科院等几家机构做了个测试,发现没有哪个知名大模型不用蒸馏技术的,也就豆包、claud少一点,其他的多一些罢了
openai也对中国的大模型做了蒸馏,以便提高自己模型的中文处理水平;claud一样会声称自己是文心一言,因为它也用了蒸馏技术。
至于这种互相蒸馏到底是互相剽窃还是互助互利,那就看你的立场了。
用了蒸馏技术不代表没有原创啊,那么强的推理能力、那么低的成本,那些不受限制的国家怎么没蒸馏出来呢?
一家民营企业做出了世界领先的ai模型
建制各种维护,扶持
反而是平时整天鼓吹私有化,自由市场,民营经济的群体对其各种谩骂打压
现在大家明白了究竟是谁在破坏营商环境了吧
说deepseek走私了五万块英伟达芯片的也是一位华裔。
那么请这位英伟达工程师回答一下这个问题。
英伟达公司有没有掌握自己显卡的去向,有没有严格执行美国的限售政策。deepseek公司有没有贵公司的五万块显卡。
有!还是没有!
朋友们,这叫什么?这就叫一根筋变成两头堵啦!
如果deepseek真有英伟达五万块高性能显卡,那就是英伟达没有严格执行美国销售政策,不能准确掌握售出显卡的具体去向。妨碍美国未来关键决策执行效果,断送中美竞争中美国领先优势的重大失职问题。
如果deepseek没有五万块英伟达的高性能显卡,那不就是证明了,不用英伟达的高性能显卡一样可以训练出高质量的大模型。
那你英伟达忽悠说必须用自己最贵最先进的显卡才能训练出高质量的大模型,卖那么多那么贵的显卡给美国政府,是什么行为啊?
你这是在挖美国的根啊!把美国往邪路歪路上面带啊!
你是左也该死,右也该死啊!
死到临头居然还不自知,真是自作列不可活啊!
按照ds给出的夸张成本预算,你只需要等上一段时间,不会超过一年,ds的后续模型就能全面超越一众你美ai大厂,遥遥领先个50%以上。
如果做不到,而是每次跟在别人屁股后面,发一个说赶上了,发一个说赶上了,自然就回答这个问题了。
这次是真的“拭目以待”了。
我劝殖子们多学习学习,蒸馏是大模型训练的一个常规方法,不仅仅deepseek在用,连chatgpt也在用。
你觉得蒸馏不是原创那就不是嘛,反正美国的几个巨头已经接入了。
我就是担心你们这么早张嘴撕咬,怕是拿不到狗粮了。


按照这个理论,小孩子一天学都不能上,也不能看前人总结的笔记,这样考上清华才是真牛逼。
蒸馏数据,就类似学习教材、教辅。但是,大家拼的是脑子啊,脑子不好,看再多教材有啥用啊?
问这问题,不就是想证明中国都是抄袭没有原创嘛,不就是想证明中国永远比不了美国嘛。
皇冠上的明珠现在真真的就剩下高端芯片和生物制药等少数几个了,有点秃了。有些人信仰有点崩塌。可以理解,但是先不要急,过几年更急,急死你!
我把这叫做无耻的争论!!!!根本就没有道理,deepseek是一个开源的产品。它蒸馏也好 原创也罢,自己看不就完了吗?有必要争论吗?谁不服谁也开源摆在全世界公众面前,让大家看看哪个好用不就完了。再说了 谁告诉你数据都是你家的别人不能用了呀!!!!
首先你得明白牧田对原创的定义是非常严谨的。
比如汽车是外国先造的,四个轮胎,你中国造汽车还这样就是抄袭,只有三个或者五个才是原创。
轮胎是外国先造的,圆形,你中国还这样就是抄袭,只有三角形或者四方形才是原创。
橡胶是外国先造成,原料是天然橡胶或者丙二烯,也是外国先造的,所以你中国还这样造就是抄袭,只有用泥巴才是原创。
比如绝大部分电器都是方形的或者规则形状,电器是外国先造的,所以中国的电器外形只能是不规则形状才是原创。
以上只是低级牧田,如果高级牧田那对原创的严谨程度逆天,任何用到外国人原理、发明和公式的中国产品都是抄袭,比如中国的汽车用到了牛顿的力学原理,抄袭,ds用到了计算机就用到了冯诺依曼原理,抄袭。
如果只靠蒸馏就能复制chatgpt,那说明chatgpt本身就没多少含金量,没有什么护城河可言,openai的close行为不显得可笑吗?花几百亿美元,还完全close的东西,可以在正常调用api的情况下被极低成本复制,那美国的AI霸权根本没有实现的可能性啊。
如果只靠蒸馏复制不出来,那你就不得不承认deepseek是有技术含量的。
所以说,要么是chatgpt sb,要么是deepseek nb,总得选一样吧,可惜不管怎么选,openai都已经掉下神坛了。
懂了,ai数据模型=赛博白酒。可以通过蒸馏、提纯、勾兑做成各种茅台


这么一理解就恍然大悟为什么欧美大厂做不出deepseek了,还是白酒喝少了啊!
建议英伟达、微软、谷歌派员工到贵州茅台厂实习一年再回去做模型
英伟达主任工程师,就这水平?
唐得有点离谱了。
看它的意思好像DS一无是处,随便就能搞出来。
既然这样你英伟达主任工程师为什么不去“蒸馏”一下?
救救你英伟达的股市升职加薪?
这不会是老黄逼迫他说的吧?
不然一个英伟达主任工程师说这话也实在太唐了。
生成式AI天生就有原罪,版权问题,信息所有权问题从来没解决,偷就是偷,天生就活该被所有有能力之人利用,没有资格声张任何权利。纠结于deepseek是否达到基因溯源层面上原创,是陷入赢学思维的误区了。
谁叫他自己不发布类DeepSeek的产品,活了大该,后悔也来不及咯,在这件事上,你不嘲讽这种想当赛博地主的科技资本,不幸灾乐祸,你还是人吗?
有些沙币用信息差在搞舆论战。
1.用蒸馏(distill)技术是deepseek自己都说的。paper里应该也说了。是指蒸馏其它大模型的输出结果来训练对齐自己的模型。
2.整个儿ai届所有玩儿家都在蒸馏,包括几乎所有发过paper的,包括openai和google。(openai甚至蒸馏了百度的通义)
3.openai极其不要脸的用条款声明:不许蒸馏自己的输出。并拿这个仅仅攻击deepseek。
4. 没理贱开动所有舆论机器不提前面3条,暗示洗脑大众deepseek偷。
Deepseek确实只开源了模型,和一部分应用推理代码。并未开放模型代码和训练代码。但这种开源方式是Facebook的小扎首创,即使不是第一个,也是他在ai界带起的风向。并被ai界认可也算开源。(尽管许多开源界人士批评这种开源是伪开源或半开源)事实是极少模型真开源,更不要说大模型。在模型开源模式中,deepseek是把算法和训练方法说得最详细的。Deepseek的模型算法威力已经在各大实验室与平台复现。攻击deepseek的文案又是不提上面2,3,4,5攻击deepseek假开源。
1.deepseek的低成本与高智能被各个高校,实验室,开源社区,大模型公司包括openai, google, Facebook, Tesla拿着放大镜研究了几十天。(v3是12.27号发布的)基本得到确认。
2.复现正在路上。
3. 华裔alex wang在媒体公开说deepseek用了大量走私卡,成本没那么低,算是皈依者给主子提供了新思路。
4. 最后攻击文案定为deepseek成本不是550万,而是5亿。
5. 新加坡的算力中心背后确实主要是东大用户,也确实有不少算力卡被走私到东大。
6. 新加坡算力中心和走私的用户并不是deepseek, 一则deepseek规模小,未必用得起。更重要的是,那没必要,(上面1,2)。发表的paper和开源的模型足够第三方复现。实际业内人士都认可了。
7. Openai, google, Tesla都在参考deepseek优化自己方案。但不妨碍攻击文案和没理贱政府舆论拿5来抹黑
以后不要再让我看到deepseek的提问了 都是回旋镖


路透社消息 可信度自己掂量。另外这个新闻网易也报道了。
那就请openai自己聊聊自己的部署成本是多少.
De-e-p-S-e-ek蒸馏openai的信息,相信openai的产品部署成本应该更低吧? openai的董事会是不是该公布一下openai每年用于训练的详细账目了? 会不会是openai虚报投入成本?
猪八戒说孙悟空的七十二变抄袭了他的三十六般变化...
它的基础是DeepSeekv3 一个MoE模型
然后通过强化学习(与此同时大家都是监督学习)发展出很强的推理能力得到了DeepSeekR1Zero
再蒸馏这个Zero再进行训练得到R1
最伟大的是那一步发现强化学习发展出来很强的推理能力。
这里关键在于openai非常流氓,openai本身蒸馏其他模型比如中文模型,然后自己模型声称不能蒸馏。
openai还爬取互联网数据,然后闭源。妥妥的霸权主义。
这也就是为什么openai只是声称DS蒸馏但是不拿出和公开证据原因。因为很容易打脸自己。
写代码这块(前端网页)碾压openai。如果纯粹靠蒸馏能超越原版,那为什么openai不蒸馏自己?
必须是蒸馏的,而且整个没有一点自己的东西,并且偷了英伟达的算力卡,整个团队都是剽窃的,但是你能咋滴,各国家各个顶尖企业全部投降给我跪下了,我在乎你这种小丑找角度给两句吗? 你哪位啊?
如今的语义污染太严重,合成数据被和蒸馏画上了等号,这是一样东西吗?正本溯源,合成数据不是蒸馏
什么是蒸馏?蒸馏是用于模型压缩的一套算法,原始的蒸馏定义来自于hinton的教师学生模型那一套面向logits的蒸馏。后来随着模型压缩的发展,有tinybert这种hidden state,attention score都拿过来蒸馏的做法,总之目的也还是模型压缩。后来进一步的研究,发现使用logits蒸馏不如直接用数据,于是出现了数据蒸馏,但是基本上依然没有脱离模型压缩的那一套理论,既
一个教师模型(通常是大模型),一个学生模型(通常是小模型),教师比学生强目标是将该教师的知识传授给学生整个蒸馏过程学生的数据来源仅为该教师
那ds到底有没有蒸馏,显然没有,无论是v3还是r1都没有。首先我们讨论一件事,数据合成算不算蒸馏?合成数据中不只包含一个模型生成的数据,明显不满足“一个”教师模型这样的限制,此时蒸馏论已经不攻自破了。且在r1中,sft的目的并不是学会某种“知识”,而是在提高各种任务上的通用能力。r1-zero的思考过程无法阅读,需要一些sft提高可读性,因此也不是“把某个大模型的知识传递给小模型”。况且最直观的一点,ds很大,对于这么大的模型,蒸馏通常不work,因为找不到比它厉害的教师(像gpt这种差距只在一两个点的是不够的)
数据合成是一个独立的方向,它的全流程不仅仅是从各模型中采集数据,还包括数据降重、数据精选等后处理步骤,你可以在使用了大量合成数据的tulu3中看到相关的应用。数据合成是数据合成,蒸馏是蒸馏,今天正本溯源要明确的就是这件事,不能把两个方向混为一谈
那什么是蒸馏,其实就在r1里你可以看到最完美的蒸馏的例子。r1的实验,将r1蒸馏至其他如qwen、llama等小模型当中,整个过程小模型的数据来源仅为r1,并且目的是教会小模型rl的能力,这个才是我们正常意义上的蒸馏
你要知道这是一个以什么闻名的国度。
一家就几个人的,成立几个月的,已知资金不过千万刀的,硬件相对很差的小公司。真能通过几个月的训练,就比别人投资几百亿刀的,花费多少年的大公司都牛?
如何看待OpenAI宣称DeepSeek违规“蒸馏”?
[收藏本文] 【下载本文】
   历史人文 最新文章
你近期在小红书上见过哪些中外文化差异?
贾政对于小姨子长期住在自己家里是什么态度
你们有没有刷过很智障的小说情节?说一下哈
有没有好看的复仇文?
为什么网上流行南方比东北冷的观点?
广西的省府为什么放在了不是很出名的南宁?
生活在民族自治区的汉族人是什么体验?
广东佛山一公司三名员工工作期间讲粤语被公
为什么小龙女不杀强奸她的那个人?
如何看待日本“学者”岡田英弘的“古代汉族
上一篇文章      下一篇文章      查看所有文章
加:2025-02-03 22:22:13  更:2025-02-03 22:23:23 
 
古典名著 名著精选 外国名著 儿童童话 武侠小说 名人传记 学习励志 诗词散文 经典故事 其它杂谈
小说文学 恐怖推理 感情生活 瓶邪 原创小说 小说 故事 鬼故事 微小说 文学 耽美 师生 内向 成功 潇湘溪苑
旧巷笙歌 花千骨 剑来 万相之王 深空彼岸 浅浅寂寞 yy小说吧 穿越小说 校园小说 武侠小说 言情小说 玄幻小说 经典语录 三国演义 西游记 红楼梦 水浒传 古诗 易经 后宫 鼠猫 美文 坏蛋 对联 读后感 文字吧 武动乾坤 遮天 凡人修仙传 吞噬星空 盗墓笔记 斗破苍穹 绝世唐门 龙王传说 诛仙 庶女有毒 哈利波特 雪中悍刀行 知否知否应是绿肥红瘦 极品家丁 龙族 玄界之门 莽荒纪 全职高手 心理罪 校花的贴身高手 美人为馅 三体 我欲封天 少年王
旧巷笙歌 花千骨 剑来 万相之王 深空彼岸 天阿降临 重生唐三 最强狂兵 邻家天使大人把我变成废人这事 顶级弃少 大奉打更人 剑道第一仙 一剑独尊 剑仙在此 渡劫之王 第九特区 不败战神 星门 圣墟
  网站联系: qq:121756557 email:121756557@qq.com