| |
|
阅读网 -> 教育信息 -> 为什么国内大学不重点采购GPU? -> 正文阅读 |
|
[教育信息]为什么国内大学不重点采购GPU? |
[收藏本文] 【下载本文】 |
A100的禁令前,课题组的显卡资源就已经远远不够用了,组里好几个学生都是自己掏钱买显卡,其它组一般也就是RTX3090。我一开始以为是个例,结果最近H… |
题主过于拿衣服,中学生思维太重,根本不懂高校设备采购的复杂度。 你以为的学校买GPU: 老板有上千万的项目经费,从中抽出200w软妹币丢给几只狗硕博,然后他们颠颠的给你叼来8张H800。 实际的买GPU: 你跟老板说要买H800,老板先看看最近有几个项目需要结题、审计不得不支出经费,然后让你统计每个项目对应可用的设备费、材料费是多少,然后捏着鼻子让手下的狗硕博找供货商询价、出具方案,来回几轮最后敲定采购合同n份。如果采购合同金额过大(例如单合同超过20w)则得上报设备处备案走公开招标采购,等批下来了可能半年就过去了。如果有幸没走招标采购就是负责人签字去科研院盖章,然后带着合同和预算去财务处装孙子求大爷们通过,该过程中大概率会被财务大爷们驳回x次:你为啥要买这个?你这个玩意为啥这么贵?你预算上没有这玩意不准买!xxx学院买的也是GPU价格没你这么离谱。GPU不是打游戏的么你们买这干啥?... ...等等经过九九八十一难后,如果财务大爷侥幸网开一面通过了,然后就是祈祷财务大爷们赶紧对公转账或者批借款给乙方(但往往经常遇到他们出去学习开会团建休假等事宜拖拖拖)。最后好不容易m个月过去了,乙方收到了款派人把卡给你送过来了。然后你一看新闻老黄的B100都铺货了。(注:以上步骤中需要跑腿、扯皮的苦力都是狗硕博们完成的。) 利益相关:一个曾经跑通过全流程的狗硕博。 |
1万张?小朋友你还在念本科吧 且不论管制,A100 PCIE接口的咸鱼报价七八万,你猜正规渠道报价多少钱?OK我就不算多,十万一张,八张就是80万,这是pcie版本的报价,算上配套服务100万一台服务器 1万张就是1250台,折合12.5亿rmb 一张300瓦,300万w的峰值功率,算上CPU,散热,精密空调,100G以上交换机,无尘机房过滤系统,数据备份,总峰值功率算你600万w不过分吧 算上维护人员开支,总价不可能低于20亿rmb 你可能不知道这是什么概念,就功率来说,就是清华也不可能架得住这个概念的IDC。只有微软阿里华为这种能有能力。就投入来说一个给cs/ee/se系用的破机房单次投入就是20多亿,除非省里重点扶持,否则单靠学校从教育部和省里的那点钱就是做梦。你知不知道一个普通985全年全校算上收学费都拿不到20亿现金流 哦对了忘了告诉你 校领导的晋升可是不看你发了多少顶会的哦 好那我们现实点说,就一个课题组,10张A100吧,总价就是100万 你以为的买卡: 你导师:“喂采购部吧,我账上划出去一千万拿三十块H100,订不到给我从香港拿” 采购:“好的X教授,预计年底拿到” 实际上的买卡: 你导:“这个国自然老子申了两年终于下来了,一共七十万经费,扣掉我自己最多拿百分之八,在扣掉给学生的补贴,项目的其他硬件采购,文章的版面,给我自己公司的利润,大概还剩十万块吧,得想想买卡了,给采购填个单子” 采购:“我们这边招标的公司最后报价是119000一台四卡4090的机器,请您十天以内签字我们从学校公管账户里拿钱” 导:“nnd只能从另一个横向里拿点钱先垫一下了” 一百万?A100服役周期算4年你问问有几个老师能每年拿25万出来专门买卡的,在C9的这种组都屈指可数,一人发一张3090给你不错了 明显题主还不太了解国内科研圈是怎么玩的啊 |
因为高校直接买GPU很不划算 目前搞大模型训练的话,参数稍微多一点点,单台8卡A100的机器就训不动了,需要多机多卡,需要使用到RDMA网络 开始训练起来一台8卡A100服务器的功率就有4000w以上,用电散热这些都需要专业的保障 这些都是有学习成本和维护成本的,高校搞这些投入高,设备使用率很低,很不划算 所以目前最多的使用方式是云厂商或者大型IDC搭建机房,以裸金属或者算力平台的方式出租给高校 |
买呀!只是大规模比较难。我省吃俭用才买了8张A100,很多学生不当家不知道财米油盐贵…以为经费是大风刮来的…你要批给我700万经费,我就去买100张卡… |
国内科研圈子里采购啥不取决于做研究需要什么,取决于各个山头的院士大牛们想怎么捞钱。PS:昨天被挑战杯答辩现场震撼到了,人均院士站台,人均诺贝尔奖获得者赞扬,人均预计五年内营收过亿,人均组内n篇sci,就是一问细节全完蛋 |
你怎么不买一亿张呢 看给你能的,张口就要一万张A100 发了几篇顶会了啊。我这辈子还没摸过A100有两篇论文,你一万张A100发100篇文章不过分吧 |
显然用惯了消费级显卡,对于A100这种东西没什么概念。 首先,A100不是买来就能用的,买也不是一张一张买的,最常见的是双路8卡服务器,你可以自购卡,然后委托服务器厂家采其他的设备,然后排产,然后才能交付到你手里!而且也不是你所谓的几万一张,现在最新的市场报价大概是130-140w一台服务器,这都是很良心的价格了。 其次,放在哪里也是问题,学校或者实验室的小型IDC中心有没有空机柜给你用,如果是第三方的是不是得临时加,或者扩容本地IDC。有空机柜,需不需要做机柜改造?之前的旧机柜在最大功率等方面能不能承载A100服务器。(至少改个高电吧!) 最后,什么渠道买,合不合法,靠不靠谱,买来了要不要联网,联网了万一锁卡怎么跟领导解释,怎么处理锁卡的设备? 这只是其中我能想到高校最关心的三个点,如果你想买,你来找我,我有货,快的话12月底交付!但是以上那些问题,学校讨论到12月底都不一定有结论,然后就是另一个价格了。 |
目前Nvidia的计算卡属于垄断状态,仅此一份,别无选择。 因此,Nvidia的市场策略极其强势,你得按人家的规矩来。 什么规矩?Nvidia会把卡出给代理商,代理商搭着卖。 你想单买A100?对不起,不卖卡,只卖整机。 8卡的A100配上定制的主板、CPU、内存、硬盘、机箱、散热等等,制裁前就得100万左右了,现在只会更贵。 你以为这就完了? 机器买到之后,你打算放哪儿?放你宿舍吗?这东西跑起来风扇是飞机起飞级别的噪音。 已经不是影不影响休息的问题,而是损伤听力的问题。 因此,你必须放到机房里。 想放到机房,就需要有机柜、网络、供电、防火,高校可能场地免费,暂且不算。 机房不可能你专用,还需要有人协调管理,毕竟百万一台的东西,盘点固定资产的人都发愁,丢了坏了都是资产流失,不好处理。 你觉得学校预算多,其实花钱的地方也不少,不可能全拿来买设备。 总体上说,大模型出来之后,对小团队来说,门槛已经太高了,只能做小小修小补的工作,不太可能出什么突破性的东西了。 因为简单的、需要资源少的东西,基本被搞完了,就像物理,300年前牛顿在家就能做实验发论文,一个三棱镜就能把太阳光给研究了。 现在呢?几千个亿砸进去,才能检测到引力波,还有更烧钱的,整个人类都没勇气去砸。 |
看到这个问题,我点进来本来想跟你聊聊我知道的那些炼丹实验室都买了多少张卡,结果看到问题描述里一句”感觉国内高校显卡资源比较富裕的是清华,其它高校在干嘛呢?“ ……行你们聊,我先走了。 认真地说, 单从经费的角度来讲确实可以买更多的卡,但你有没有考虑过一个重要问题:机器放哪?如果你没有网管类的经历,可能不太容易想到这个问题,但这是一个非常重要的问题。 我们实验室近几年面对的一个问题就是服务器没地方放,我们现在有两三台GPU服务器,十几台CPU服务器,CPU服务器功率不高,校内有若干机房可以托管,但GPU服务器不同,动则上千瓦的(峰值)功率,多来几张卡功率叠加很恐怖,对机房环境有更高的要求。就我所知,学校近几年没有什么新机房,而若干年前修建机房时还是多核CPU盛行的时候,自然没有为每个实验室若干台GPU服务器做打算,这个时候如果每个实验室都要求买一批GPU服务器,自然没地方放——往旧机器里加卡也不行,功率会超。 我们实验室在买机器方面大概不缺钱,但是每次有人提出买机器都会面临”放哪“的心灵拷问。我前年需要个持久内存的机器,还是因为它功率不高把一台旧机器报废了位置腾给它的,要换做GPU机器真没辙。 所以反问题主,即便贵校有一万张A100,你又能把它放哪呢? |
当学校买了1万张a100: 导师:反正学生们也是造学术垃圾,这些经费不如拿来开会聚餐。 校长:这么多老师找我要机房,学校还要花钱建房子。啥?还得有空调散热?学生宿舍我都没舍得给装空调... 后勤:听说学校买了一万张A100,电费一个月不得几百万,我套出来几万块不过分吧。 财务:报销...服务器入库...电费...累吐血了Σ_(???」∠) 电厂:这个月效益不错哈哈 黄仁勋:这个月效益不错哈哈 学生:哈哈,我都能print(“hello python”)了,我真棒 啥?学校真买卡了啊!完了,发不了好期刊没借口了... 代码/论文代写:这个学校的题目怎么一个比一个离谱?那我价钱得提高一倍。 |
“这十张A100是陈公的家底,没有这十张A100,陈公在科研界说话就没有底气。这些A100只能给你用来壮声势。” |
个别学生:学校这么有钱,为啥不多买点显卡 教工:学校荒地这么多,为啥不多盖点职工房 单身狗:女孩这么多,为啥没人给我介绍 韭菜:全国这么多人,为啥没人接我盘 村里二楞子:等我做了村长,全村的锄头都是我的,谁也别想碰。 |
小朋友,纠正你几个小错误: 其一,A100不是7万。他的下位替代,A800,在去年最贵的时候被炒到了15万一张。现在价格不是特别清楚,但是估计12,3万还是要的 其二,一台机器不是只有显卡,还有CPU,内存,硬盘RAID等等。一般一个浪潮的服务器,哪怕是A100最便宜的时候,也要100万。而等到显卡更贵的时候,一台机器150万甚至都拿不到货。 其三。就算你钱够多,1.5个亿买了100个机器(我不知道国内哪个实验室有1.5亿的设备经费,给我开开眼),800块卡,请问你怎么安装部署?你准备安在学校哪里?这么多机器,需要一个很大的场地,还需要解决供电,散热,网络连接等等的问题。这还别说机房会非常非常吵,这么多机器一间屋,那栋楼基本都不能办公了。 你会发现,那为啥不去阿里云上买云机器?那当然可以,只要你舍得花一样的钱,买这些机器,一年的使用权。 云计算是个系统工程,不是你拍脑袋就能搞起来的。劝你还是多学点实际的知识,别在这里整天瞎拍脑袋。 |
|
麻烦看一下上海大学采购一张3090的价钱 上海大学采购管理系统?bidding.shu.edu.cn/sy/xtgg_detail.jsp?wid=202308120024905431&gglx2bh=LXCG 给你个链接免得说图片是假的 之前看到的时候确实不知道是买了四张,我是看到评论里的截图,再去翻找的公告,最后还是希望有些公告可以写的清楚一些 |
|
|
坐标安徽某双非 实验室配了大概30张卡,一大半3090,5张a6000,4张a100,4张v100 我感觉我们不配 |
我们组曾经把十台左右的CPU服务器专门放挪到一个房间,勉强作为临时机房,那里面功耗最高的也只是3990X,大部分其实是英特尔24核的服务器处理器,远不如RTX3090的满载功耗,即便这样,服务器的功耗也超过了普通房间的空调散热极限,去机房清个灰接个线已经是噩梦了。 如果不考虑钱的问题,仅仅是100张RTX3090的满载功耗,恐怕我们需要这栋楼的中央空调更改设计装修,专门给我们弄一个机房进行散热。 假如不放在系里,而是购买托管在商业公司,按照采购要求得招标,又是一大堆流程。 万一这种倒霉差事落在我头上,已经不敢想象教务处老师要我填写多少材料了。一个月硕士补助才两千,咱的工作量要对得起补助。 |
打开问题详情前: 啥学校啊,好歹买几张2080意思意思也行啊。。。 打开问题后: ????多少???? |
矿潮那会我记得我们开会的时候聊过矿的事情。 那个时候我们所有人都在质疑我们拿组里的卡做项目拿到的实际价值到底是不是比挖矿更值。我们没有人给得出肯定的答案。 所以话说回来,发了几篇顶刊啊这就急着要卡了? ps:那段每周出一波货然后实验室小聚一餐的时光真快乐。 |
来我们医院吧,我们医院最近刚新买了200个A100 |
一张A100 7万人民币,你还是不懂公家钱怎么花啊。没有20万能买? 某个单位不是3090都花了4万一张么?这还是这个月发生的事。 |
“当年我们用的电脑也没有 gpu,不是照样发论文” |
高校都是小作坊,最大的实验室规模不过一两百人。GPU这个东西还得去企业实习或者工作才比较多。他们有钱有资源可以搞集群,显卡利用率很高,服役周期很长,淘汰的卡处理起来也有渠道。而且有产品有投资人的钱,相对而言显卡就不贵。但是同样的价格放到高校,就相对很贵,而且利用率上不去很不划算。国外高校有那种校内公用的集群,按照使用收费,那种模式还是不错的,学校自己搞至少比阿里云aws这种便宜。 |
讲个残酷的事实,曾经上大语言体验课的时候。老师告诉我们整个南大只有四台a100 |
CHAT-GPT 4.0也就用了一万张A100。 怎么,给你一万张A100你能领着中国做出比openAI更强的大模型? |
因为GPU太贵了,有这钱跟百度或者华为这样的大厂合作买云计算资源就好了,走采购还要搭机房还要有专门的运维人员,每年末的资产清算还有一堆手续 当时我在京大读书的时候研究室算是奇葩,在已有16张2080ti 的基础上又买了11张A6000,当时还有一个房间专门做机房,运维都是靠我们研究室学生自己在弄,然而我老板不太看得上练丹,独爱可解释性 |
别说高校,就是国内的大银行,不说哪家了。一共有五千人的科技团队,超过一干人的人工智能研究人员,一共也才配置了一百二十张卡。 |
一万张A100,怎么也得1000台服务器吧。 数据中心也得10MW吧,来找我们建设吧。建设数据中心的几个亿我们先投了。 剩下的几十亿的显卡、计算平台就靠你了。 今年算力中心投资的TOP1就是你了,怎么也得上个新闻。 |
买啊,怎么不买 |
|
|
这位同学,别的我不知道,但是说实话国内大学这几年真的没少采购GPU,而且这些GPU其中的一部分都是以学院学校这个层面统一建设框架下的一部分。以浙大为例,计算机学院院长陈文智老师后来主持建设数据中心,到目前为止已经初具规模,其硬件、框架、平台、团队在很高的层次调度,为各个学部、学院、学科都提供了智能计算方面的有力支撑。 从我能看到的各个大学这方面的努力,采购GPU都是从P100那一个时代开始的,说晚是绝对不晚的;说少也是绝对不少的(对于一个大学来说)。至于有这种“不重点采购GPU”的这种主观印象,我觉得其实也不是没有道理,也讲几个我亲历的故事,地点杭州,咱们互相参详一下: 1,一次一个毕业以后去A学校(外校)任教的师妹给我打电话,说他们学校某环境实验室要淘汰一批老的GPU,说是性能不满足,要买新的。她过去看看能不能捡个漏,然后看了半天没看懂,让我去帮忙看看。我过去看了看,4卡双路的组装工作站,说是噪音很大但是性能很差,我指挥我师妹拆开散热器看了看,这4张GPU里面,其中一张的核心硅脂都结块了、显存的散热条都变色了,其他三张就跟新的一样...........我当时下巴都快掉地上了,人都傻了,跟我师妹说我终于知道矿潮之下为啥有3090的新卡了,真的是严格意义上的新卡,连驱动都没装过。 2,有一次一个上海某高校交通超级牛人来我们学院访问,在我办公室聊了一会天,期间看见我办公室的一台Z440工作站,前几年做课题的时候买的。就跟我讨论起来他的公司采购了一批的超强工作站,组装的,里面都是4卡加intel单路,连续运行半个月准出事,死机、黑屏、蓝屏三选一。他觉得是电源问题,然后就装了2000w的双电源......一通折腾之后效果明显:改一个星期出一次事了。而且对涡轮卡嗤之以鼻,说噪音如何如何大,只能弄个屋子把他们都放进去,装了多粗的电线,用ToDesk远程接入。我就跟他说,首先,涡轮卡他有力矩的,干活干久了力矩就让他尾巴越来越往上抬,你看这个工作站吧他这儿有个条把他们压住,屁股就不会往上抬,就不会接触不良(当然现在的新槽问题不大了),你这个机器这么贵,居然是电脑城攒的,连个内存风扇都没有,温度传感器也没有,连续转一两个礼拜肯定各种死机啊;第二,你看我这个涡轮卡,还是两张,挡住电源灯你不仔细听甚至听不出我这个Z440在没在工作,这不是涡轮卡的问题,你需要的是一个正经工作站,不是组装电脑;第三,你不就是4张GPU嘛,你搞这么大的双电源干啥?我这个700w,除了2个A5000,还有一个140w的CPU,硬盘一堆,从来没有你那个三选一;第四,你得用ECC啊,内存、显存没有ECC不就是自己跟自己过不去。 3,有一次去给一个高材的大哥当专家,会后闲聊天,他问我能不能搞到80G的A100,我说你要干什么,他说别说80g,160g他也不嫌多,就是嫌贵。然后就是他的模型如何如何吃显存吃内存,现在塞进去500g的内存,但是显存还是不够.......... 一个星期以后我又过去聊天,期间我说你方便不方便代码给我看看,我看能不能帮你解决一下。大哥一拍大腿说那有啥不能的.........一个小时以后,我跟大哥说,你这个模型一模一样的我们实验室也用,配置项有一些小区别,跑在一个双路E5加2张2080ti还有一张750ti连显示器的机器上的,关键是那两张2080ti因为要升级22g显存给淘宝商家寄出去的那几天这个模型也能在剩下的那个单张的750ti上照样跑。您老这是有限元,又不是二次元...... 除了实际效果和利用率的问题,还有几个考量的点,作为一个学生这个问题问的非常好,但是可以更全面一些。比如说: 1,可以调查一下100张显卡能干什么,拿来推理是不是有点过分了,拿来训练是不是又有点上不上下不下的挺尴尬; 2,可以调查一下吧这100张显卡跑起来需要哪些配套,这些配套硬件值多少钱,看看跟自己的主观感受有没有差距; 3,实验室甚至是学校有没有能力维护这100张显卡,包括人工成本OP、Infra、甚至是独立的架构师,还有电源、带宽和电费、宽带费......你还得考虑,你这100张显卡,运维团队能不能找得到人,这些人能不能稳定(这帮人每天就维护这100张显卡有没有上升空间肯定要离职啊),为了维持团队的稳定你需要在市场价的基准上上浮多少个百分点开工资; 4,地方,可以算出来放下这100张卡需要多大的地方,这个地方不说租金(谈钱伤感情),咱就说你看上学校里面的一块地,把这块地改造成能跑得起来这100张显卡的工程、土建、水、电、散热、宽带、人工、要花多少钱; 5,还有一个,按照我们国家高校的财务管理规定,可以研究一下,这些卡账上的折旧一年多少钱,就算你不管帐,那么实际的价值呢,实际价值3年后还剩多少,前面那些投资都值得吗?财务、审计过得了吗? 6,还有一个有点制度化的问题,为了审计方面的合规性,每个项目和课题都是要单独审计的,A100这种资产非常尴尬,列到设备费还是材料费都需要反复对照合规问题。而且,同一个老师的可能还可以讨论,把几个不同学院通过还没结项的课题经费采购的显卡放到一起,别说放到一台服务器里,就算只是放到一个机架上,我是没太想好应该怎么办。如果是课题遗留的资产……三四年以后的事情了。 其实这真的是个非常好问题,我自己也答不上来这些问题,只有一个大体上模模糊糊的范围,有时间真的有价值去好好研究一下。 |
看把你能的,你要是能自己动手魔改2080ti 22g,3080 20g,导师年底聚餐单独给你敬酒。 |
首先一个大学的科研经费不是只给你这个专业花的。其次普通的大学搞的那点神经网络,实在是用不上一万块显卡,买过来不是吃灰就是挖矿。 |
怎么不买了?一直都在买呀 |
|
|
实际上这件事跟有没有钱关系不大的。 真正的问题是,ai科研的阻碍在算力上么? 根据我在B站和知乎的体验,目前的大学生完全不懂社会需求,过度地重视AI画图、AI自然语言处理这些工业价值低、娱乐价值高甚至方法论都有问题的方向。 在很多人心目中, AI画图就是AI,是高科技, AI写PPT是高科技, 但无人机飞控不是, 自动驾驶不是。 智能识别侮辱性言论不是。 这是其一。 其二,AI技术的核心突破,都不是靠算出来的。 要么是靠数学推导出来的, 要么是靠堆训练素材堆出来的。 从科研角度讲, 如果没有danbooru这样的社区对几十万张pixiv图片做标注, 压根不会有novelai, 不会有所有后续的动漫图片自动画图。 没有这些基础建设,压根就没有GPU的用武之地。 中国的科研,需要去依附化了。 为什么百度的那个AI画图各种丢脸,因为它用的训练集,是外国人做的好么! 外国人根据自己需求做出来的训练集,面对中文各种出丑就太正常了。 那个画图的NLP能力,甚至连2006年的百度搜索的技术水平都没达到。 说真的,2006年时,我们做NLP的人,认为最牛逼的人工智能论文,不是什么拿着算力算出什么结果。 而是,总结了无数素材后,给出了一份40行的规则,告诉计算机什么叫做一个句子。 这是当时北大人工智能实验室真实发出来的paper。 这比一堆人在外国人核心工作的基础上补充点皮毛,要有意义得多。 |
参考一下港科广州最近买了64张H800,加上配套服务一共2.6亿 刚查证了一下,是64台DGX H800服务器,这具体多少卡我也不知道了,具体可以看看这个2.6 亿、定向采购:NVIDIA DGX H800 SuperPOD 配套软硬件和服务 |
其实这种算力,完全可以国家组建,微利出租给研究机构使用 再怎么贵也花不了多少钱吧? 援助外国都是百亿百亿的,算力这点小钱小意思了 |
|
[收藏本文] 【下载本文】 |
上一篇文章 下一篇文章 查看所有文章 |
|
|
古典名著
名著精选
外国名著
儿童童话
武侠小说
名人传记
学习励志
诗词散文
经典故事
其它杂谈
小说文学 恐怖推理 感情生活 瓶邪 原创小说 小说 故事 鬼故事 微小说 文学 耽美 师生 内向 成功 潇湘溪苑 旧巷笙歌 花千骨 剑来 万相之王 深空彼岸 浅浅寂寞 yy小说吧 穿越小说 校园小说 武侠小说 言情小说 玄幻小说 经典语录 三国演义 西游记 红楼梦 水浒传 古诗 易经 后宫 鼠猫 美文 坏蛋 对联 读后感 文字吧 武动乾坤 遮天 凡人修仙传 吞噬星空 盗墓笔记 斗破苍穹 绝世唐门 龙王传说 诛仙 庶女有毒 哈利波特 雪中悍刀行 知否知否应是绿肥红瘦 极品家丁 龙族 玄界之门 莽荒纪 全职高手 心理罪 校花的贴身高手 美人为馅 三体 我欲封天 少年王 旧巷笙歌 花千骨 剑来 万相之王 深空彼岸 天阿降临 重生唐三 最强狂兵 邻家天使大人把我变成废人这事 顶级弃少 大奉打更人 剑道第一仙 一剑独尊 剑仙在此 渡劫之王 第九特区 不败战神 星门 圣墟 |
网站联系: qq:121756557 email:121756557@qq.com |