阅读网 购物 网址 万年历 小说 | 三丰软件 天天财富 小游戏
TxT小说阅读器
↓小说语音阅读,小说下载↓
一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放,产品展示↓
佛经: 故事 佛经 佛经精华 心经 金刚经 楞伽经 南怀瑾 星云法师 弘一大师 名人学佛 佛教知识 标签
名著: 古典 现代 外国 儿童 武侠 传记 励志 诗词 故事 杂谈 道德经讲解 词句大全 词句标签 哲理句子
网络: 舞文弄墨 恐怖推理 感情生活 潇湘溪苑 瓶邪 原创 小说 故事 鬼故事 微小说 耽美 师生 内向 易经 后宫 鼠猫 美文
教育信息 历史人文 明星艺术 人物音乐 影视娱乐 游戏动漫 | 穿越 校园 武侠 言情 玄幻 经典语录 三国演义 西游记 红楼梦 水浒传
 
  阅读网 -> 教育信息 -> 如何评价南京大学周志华教授团队近日构建的北冥坞(Beimingwu)? -> 正文阅读

[教育信息]如何评价南京大学周志华教授团队近日构建的北冥坞(Beimingwu)?

[收藏本文] 【下载本文】
南京大学周志华教授在 2016 年提出了学件(learnware)概念,并基于学件以一种全新的范式来解决机器学习任务。并且,学件范式首次提出建立一个基…
没想到这么多同学关注。
作为参与者之一,简要说一下我个人的想法
1. 学件试图解决什么问题
当有大量模型积累下来的时候,对于当下要完成的学习任务,能快速找到适合的模型、快速利用相似的模型来解决问题,这是学件要达到的目标。针对这一目标,目前北冥坞仅有非常初步的概念实现,还有很多问题有待解决,也希望有兴趣的同学能一起参与。
学件功能相关研究部分文献:
Model Reuse With Reduced Kernel Mean Embedding Specification. TKDE 2023
Identifying Helpful Learnwares Without Examining the Whole Market. ECAI 2023
Identifying Useful Learnwares for Heterogeneous Label Spaces. ICML 2023
Handling Learnwares Developed from Heterogeneous Feature Spaces without Auxiliary Data. IJCAI 2023
Abductive subconcept learning. Science China Information Sciences, 2023
Pre-Trained Model Reusability Evaluation for Small-Data Transfer Learning. NeurIPS 2022
Towards Enabling Learnware to Handle Unseen Jobs. AAAI 2021
Heterogeneous Few-Shot Model Rectification With Semantic Mapping. TPAMI 2021
学件的概念论文是在2016年发表的,即使在今天大模型极为火爆的环境下,查搜并融合多个小模型去解决的问题仍然是很有趣的技术路线,且不说论文中列出的优点,这条路线更接近生物大脑的结构:根据场景需要,将相关知识下载到短期记忆模块中,解决场景问题后短期记忆进行选择性存储,短期记忆模块切换到下一个场景中。
2. 跟huggingface的关系
周老师构想“学件”之时,还没有huggingface。
Zhi-Hua Zhou. Learnware: On the future of machine learning. Frontiers of Computer Science, 10(4):589–590, 2016. 4243
今天的huggingface是一个模型仓库,而学件事要探索一条不同的技术路线,两者仅仅是在“有很多模型”方面相似。
3. 关于商业化?
在北冥坞之前,其实组里已经与几个大厂联合开发了企业内部的学件系统,进行了一定的验证,但同时也发现企业内部的系统对于科研来说较难让更多的研究者和同学参与。
因此北冥坞是完全开源的系统,包括网站前后端都全部开源了,任何人都可以自己部署,仅有唯一目的,就是希望有更多的研究者参与,而没有任何商业化的目的。也希望有兴趣的同学能对北冥坞系统和算法做出改进。
还有很多同学讨论生态,确实生态的形成是很难的,看着还有很多不看内容的评论就知道了。不过我也看到了另一种可能,大量模型的产生和使用并不一定是人参与的,也有可能是机器产生的,也许会形成另一种生态。
另外声明一下,没有花一分钱去推广或者买什么热搜
看了一圈回答,依然搞不清这是什么,这可能是北冥坞背后团队要解决的一个主要问题?总不能要求每个人都去把相关论文都读一遍吧。
当谈论到跟huggingface的关系时,只是说“周老师提出的时间更早”,这似乎没有任何意义,大家关注的是到底有什么用,好不好用,而不是早不早,况且机器学习模型平台类似的概念由来已久了,也不是什么特别的创新。


网站主页前端做的很有趣啊
在粗略读了论文并亲自体验了网站之后,斗胆发表一些自己的评价。
论文链接:2401.14427.pdf (arxiv.org)
释义
学件 learnware
软件是software,硬件是hardware,大名鼎鼎的软工领域书籍《人件》原名叫peopleware,指的是和团队管理中和人相关的一切问题。那学件自然和学相关。
学件由性能优良的机器学习模型和描述模型的规约组成。
规约 specification
规约刻画了模型的能力,使得模型在未来能够根据用户需求被充分识别和复用。规约由两部分构成:语义规约通过文本描述模型的功能,而统计规约刻画模型所蕴含的统计信息。


学件与规约
简单来说,学件 = 模型本身 + 描述模型功能的文本信息(语义规约)+描述数据集的统计信息(统计规约)
举个例子,以下是一个模型和它的数据集信息,包括输入输出等:


统计规约在界面中并没有体现,根据论文中的描述,是基于RKME (Reduced Kernel Mean Embedding)实现的,适用于表格、图像和文本数据。使用最大平均差异(MMD)计算可以评估相同类型的RKME统计规约的相似性。和2016年周老师的文章一致。 [2210.03647] Learnware: Small Models Do Big (arxiv.org)
如此一来便能大概理清这个应用的逻辑了。


平台内积累的大量的学件。当用户要解决一个新的机器学习任务时,他可以向北冥坞提交自己的需求,然后系统将根据规约从众多学件中识别和组装一些有帮助的学件,并返回给用户。
最极端的情况,一个啥也不懂的计算机小白,来北冥坞,说:“我家长了好多草莓,想要一个能识别红草莓和绿草莓的机器”。那最终就能返回一个他满意的程序,完成他的需求。


根据论文,当前北冥坞仅有约1100个从开源数据集构建的学件,涵盖的场景有限。
一些问题
自然而然的,基于这个过程,我们会有一些问题。
以下问题仅是看文章时的一些思考,如有偏颇,请指正。
和huggingface等有何不同?
个人感觉是做了对需求和需求数据的特征提取,用来查找对应的学件,以及做了提交、可用性测试、组织、管理、识别、部署和重用一站式的流程。但是huggingface还提供了demo在线验证的空间。
2. 如何做到组装学件?
当一个任务涉及多个模型时。文章中说使用了aligner进行模型之间数据维度的对齐,但是效果存疑。


3. 是否真的可以涌现?
可能是看的时候疏漏了,在流程中,似乎没有一个可以进行持续学习和持续更新的过程,那么是否真的可以出现主页中预期的涌现现象?因为这样的话,似乎海量数据和少量数据也没有太大的区别
4. 模型内参数也属于规约吗?
实践过程中,经常会碰到,如果数据变了,模型超参可能需要一些调整来适应,比如无监督中Kmeans的K值,或者学习率等,这些如果开始时没有作为特征表示在学件中,后面如何能适应调整?
5. 数据工程无法避免?
如果需要我上传数据来寻找适合的学件,那必然是我给的数据就适合这个学件。那如果我已经有合适的数据了,是不是代表我对这个任务有了一定的理解了,已经知道完成任务需要哪些数据了。倘若我还不完全了解,提供一批未经整理的数据,是否模型推荐就不准确了?
打开网页看了一眼,想着自己恰好有教育网邮箱,赶紧注册了一个准备尝尝鲜:


网页充满了一种极简风,看得出来出自科研团队之手。不过仅从网页上来看有些不知所以,看不明白到底应该怎样用以及有什么用,所以我决定还是先去看看论文学习一下。


论文总结的Beimingwu贡献主要包括以下几点:
简化新任务模型开发:Beimingwu系统通过学件范例,显著简化了为应对新任务构建机器学习模型的过程。用户可以用几行代码快速部署高性能模型,而不需要大量数据和专家知识,同时保护数据隐私。集成和可扩展的架构设计:Beimingwu提供了一个统一的学习器结构和集成的系统引擎架构,支持学习器的整个过程,包括提交、测试、管理、识别、部署和重用。这个架构可以协调大量学习器,便于未来研究。开源学习器对接系统和统一用户界面:Beimingwu的核心引擎作为学件包开源发布,支持计算和算法方面、系统后端和用户界面(包括网页和命令行客户端),旨在建立学件生态系统。针对不同场景的全过程基线算法的实现和评估:Beimingwu实现了一系列基线算法,支持处理表格、图像和文本数据的模型,并进行了实证研究评估,这些都是公开的,以便未来研究。
讲真,无论看原文的英文,还是翻译成中文认真理解,仍然有种迷迷糊糊、不知所云的感觉,想着实践才能出真知,我又返回了Beimingwu的主页研究。
其中“文档”按钮点击后有一些具体的使用说明——


安装learnwarePython 包是第一步,按照说明即可顺利实现:


配置好环境后,我随便找了一个测试学件作为尝试:


可惜一直报错:


暂时没有兴趣继续研究了,希望未来可以对于每个学件的输入输出需求以及环境配置有更清晰的说明,否则用起来还是有些麻烦的。
不过这个系统的大致思路倒是理解了,就是希望大家上传各种涉及表格、图像、文本的机器学习模型,供其他有类似应用需求的用户,经过简单的修改后直接使用。
这个目标听起来很令人兴奋,不过就系统的现状来看,未来恐怕还需要有大量的优化工作,才能成为GitHub或huggingface之类的“傻瓜式”模型检索系统。
实在没想到有这样的热度和关注。
针对一些问题,我根据研发的实际经历分享一些个人的看法,补充一下俞老师
@俞扬
的说明。
评论里最主要的问题是:为什么要做学件系统?跟 HuggingFace 的关系?为什么要做大量的工程?
首先,不得不承认,研发系统对于做研究的人是一个很累的事儿,因为确实涉及大量的工程开发,而科研人最看重的还是 paper。然而过去的几年里,因为学件算法的研究,我们逐渐认清了原型科研系统的研发是不得不做的,这里也佩服周老师的前瞻性。其实学界研发原型系统的事并不鲜见,尤其是国际上许多熟知的系统最初原型研发尝试都起源于科研、教学领域,往往也是因为创新型的尝试没办法使用已有工具来完成。
从大家熟知的 HuggingFace 说起:HuggingFace 的模型库生态已经非常成功,并且确实是产品、工程驱动的,本质的架构是通过 Git 管理的模型远程托管平台,可以说模型与 HuggingFace,基本管理方式等同于代码仓库与 Github。每个模型依然使用代码仓库的方式,通过 README 介绍其使用方式、性能、甚至伴随一些模型的宣传,进而用户想要构建自己的模型时,可以像去 Github 看看是否有造好的轮子一样,通过 README、下载量等去 HuggingFace 挑选模型。
然而,早在 2016 年,周老师在学件的论文[1]中,思考到:随着机器学习发展,深入到各个领域,优质模型将会越来越多,通过构建一个大的模型分享平台,可以方便地解决许多机器学习中的问题。然而同时,当模型规模非常庞大之后,仅仅构建一个托管平台很难满足用户需求,因为普通用户此时已经很难分辨哪些模型对自己的任务真正有用了。现实也确实如此,HuggingFace 转眼间,已经有近 50 万模型,我记得 2022 年时只有 5 万左右,一年多翻了十倍,破百万指日可待。即使通过关键词搜索,可能依然大量模型展示在面前,哪个模型、或者哪些模型的组合是最适合用户当下任务的?
于是按我的理解,这是为什么学件中设计了"规约"。通过规约来预先刻画模型的能力,从而针对用户需求,基于规约可以自适应地从庞大的平台中匹配到潜在有用的一个或一组模型。readme 文档也可以看作一种基于语义描述的规约,但是还不够,因为模型不同于文本、代码,本质上是一个非常复杂的函数,想要刻画清楚,统计工具非常重要。而且规约的要求很高,既要能刻画模型所对应的函数的特长,从而遇到新任务后,能够基于规约去匹配合适的模型;另一方面,规约又不能暴露开发者的原始训练数据,否则许多开发者不再愿意分享模型。之前组里也做过许多规约的尝试,现在北冥坞中使用的是 RKME 规约,优点是通过 MMD 距离的优化,能一定程度上刻画模型擅长的数据分布和任务的数据分布,同时我们发现可能从理论上证明它对原始数据具有一定的隐私保护能力 (...可以期待下未来工作:) )。
反过来,理论上可以证明,如果没有这样的规约,仅有一个庞大的模型库,对于许多用户任务,是无法高效地查搜、匹配到合适的一组模型的,甚至只能暴力地搜索尝试、尤其是模型的组合,这在模型库规模庞大之后是无法接受的。另一方面,我们发现规约也有许多其他的好处,不仅是不再需要尝试模型,例如对于不想暴露数据的用户,也可以通过对任务做统计规约来查搜合适的模型部署到本地,而无需上传原始数据;模型增多后可以互相"协作沟通"、演进规约,使规约对模型能力的刻画更准确;以及帮助模型组合、复用;等等不赘述。
于是,为了后续的学件研究,我们越来越需要一套,由规约贯穿始终的新的系统平台架构:以规约为核心来组织模型 (确切地说是统计规约),能够针对用户需求自适应匹配模型,统一用户接口和学件结构,作为学件的科研平台;但当下已有的模型被动托管平台远无法支持这个需求。同时,这个新架构也使得未来模型数量庞大后能够依然方便地为用户提供服务、匹配模型成为可能。而这个架构只能我们自己来推动,因为不仅需要工程开发,其中需要许多新的研发、接口设计。我们没有打算将北冥坞做成"商业产品",而是用作学件研究的初步科研平台,优先面向学术界,作为初步的版本,我们认为基本满意了。由于网站支持还比较初步,我们欢迎对系统和研究感兴趣的朋友关注一下我们的开源代码仓库:)
系统前后端: GitLink | 确实开源
系统引擎、科研包: GitLink | 确实开源
如同评论区大家所说,研究之外,生态构建是极其困难的,我们自己的力量也实在有限、在推动学件科研之外也很难全力用在生态构建上,所以北冥坞是完全开源的、非中心化的,任何人、企业都可以部署、改进,来构建社区。我们只是搭好了核心架构、接口和基础实现,为这件事开了个头。我们接下来会基于该平台持续推进核心算法的研究。
最后,为了服务科研,我们的大量精力花在接口的可扩展性上,使未来可能的算法能够集成在内。而为了稳定运行,当前系统使用的算法仅仅是baseline,还有一些正在研究的算法和已发表的工作会逐步尝试落入系统,持续改进系统核心功能。欢迎大家一起来改善:) 此外,本回答主要针对问题中提到的最新的系统论文,没有特意介绍学件框架带来的其他优势,对学件整体感兴趣的朋友可以参考论文[2],或进一步与我们研发团队交流 (bmwu-support@lamda.nju.edu.cn)~
[1] Z.-H. Zhou. Learnware: on the future of machine learning. Frontiers of Computer Science, 2016, 10(4): 589–590
[2] Z.-H. Zhou and Z.-H. Tan. Learnware: Small models do big. Science China Information Sciences, 2024, 67(1): 112102.
[收藏本文] 【下载本文】
   教育信息 最新文章
为什么部分 985 博士的第一学历很普通?
同济土木已经没有未来了吗?
为什么大学里上课几乎没几个人听课?
00 后女干部拟任东莞茶山镇经济发展局副局长
为什么很多仕途开始一帆风顺的人,都会卡在
能干成大事的人都是什么样的人?
重男轻女家庭里姐姐下面的弟弟在想什么?
上海交大这个名牌值得舍弃专业吗?
谁能介绍一下北大的数学教授许晨阳?
教育部为什么不公布第五轮学科评估的结果?
上一篇文章      下一篇文章      查看所有文章
加:2024-01-31 22:12:31  更:2024-01-31 22:13:44 
 
古典名著 名著精选 外国名著 儿童童话 武侠小说 名人传记 学习励志 诗词散文 经典故事 其它杂谈
小说文学 恐怖推理 感情生活 瓶邪 原创小说 小说 故事 鬼故事 微小说 文学 耽美 师生 内向 成功 潇湘溪苑
旧巷笙歌 花千骨 剑来 万相之王 深空彼岸 浅浅寂寞 yy小说吧 穿越小说 校园小说 武侠小说 言情小说 玄幻小说 经典语录 三国演义 西游记 红楼梦 水浒传 古诗 易经 后宫 鼠猫 美文 坏蛋 对联 读后感 文字吧 武动乾坤 遮天 凡人修仙传 吞噬星空 盗墓笔记 斗破苍穹 绝世唐门 龙王传说 诛仙 庶女有毒 哈利波特 雪中悍刀行 知否知否应是绿肥红瘦 极品家丁 龙族 玄界之门 莽荒纪 全职高手 心理罪 校花的贴身高手 美人为馅 三体 我欲封天 少年王
旧巷笙歌 花千骨 剑来 万相之王 深空彼岸 天阿降临 重生唐三 最强狂兵 邻家天使大人把我变成废人这事 顶级弃少 大奉打更人 剑道第一仙 一剑独尊 剑仙在此 渡劫之王 第九特区 不败战神 星门 圣墟
  网站联系: qq:121756557 email:121756557@qq.com  阅读网