您好,欢迎观临半岛体育官网!

咨询热线:

040-88888888

半岛体育OpenAI 核心创始成员Andrej:让大模型像人脑一样低功耗运行

发布时间:2024-04-08 08:51人气:

  半岛体育OpenAI 核心创始成员Andrej:让大模型像人脑一样低功耗运行近日,OpenAI核心创始成员Andrej Karpathy(已于24年2月离职)在红杉资本进行了一场精彩的分享。

  Andrej分享了他关于大模型发展趋势的思考,包括LLM OS、新一代算法架构、如何降低大模型的功耗、AI时代下的创业机会等重要话题,干货满满,值得细品。

  还有一个彩蛋,Andrej分享了此前在Tesla负责FSD时,对Elon管理哲学的观察与思考,也非常有趣。

  而在LLM OS中,大模型本身就是中央处理器。I/O外设也不再是鼠标和键盘,因为LLM可以兼容更多模态的数据输入和输出。同时大模型调用的外部工具也将从传统软件升级为智能体工具。

  传统操作系统中的缓存RAM,对应为LLM OS中的上下文窗口。传统操作系统中的文件存储,对应LLM OS中的向量数据库。

  在传统操作系统时代,微软的Windows和Apple的Mac OS占据了主要市场份额,它们都是闭源操作系统。

  但是Linux作为一股开源力量,催生出了一个庞大的开源操作系统生态。人们基于Linux构建了无数商业发行版,包括Ubuntu、CentOS、Redhat等。

  与此同时,Meta开源的Llama模型已经成为一股开源力量,催生了开源大模型的生态体系,其中就包括Alpaca、Vicuna等著名开源模型。

  目前真正完全开源的大模型,包括Pythia、LLM360、OLMo等。这些模型不只是开放了权重参数,而且开源了编译整个模型所需的基础设施。

  如果大模型只开放了二进制权重文件半岛体育,你虽然可以对模型进行微调,但能微调的空间其实是有限的。因为你微调得越多半岛体育,模型会在其他方面开始回归。

  如果你想在保持模型现有能力不回归的同时,给模型增加新的能力,你需要将旧的训练数据分布和新的训练数据分布进行混合,再喂给模型进行训练半岛体育

  如果你只拿到了模型的权重文件,你是无法做到这一步的。除了权重文件之外,你还需要训练数据集,以及训练代码。

  这是因为训练大模型所需的基础设施架构仍然很不完善,它是一个非常复杂的分布式优化问题,这方面的人才极其稀缺。

  训练ChatGPT的过程中,我能感受到整个基础设施一直是“摇摇欲坠”的。LLM训练基础设施层面的提升是行业亟待解决的重要问题。

  这是很奇怪的一件事。想象一下,在一个模型空间中,有两个点的性能表现都非常优秀,而且它们之间没有任何关系。

  我认为可能存在某种算法架构,能够统一这两种优秀的模型,让我们得以构造出一个复合架构,能够兼容自回归模型和扩散模型的优势。

  人类大脑的功耗约20瓦,而Jensen(黄仁勋)在GTC大会上公布的超级电脑的功耗是以兆瓦为单位的。

  因此,降低功耗的第一种途径,在于设计出新的计算机架构,来适应新的data workflow。

  可以预见的是,AI时代需要全新的计算机系统架构,这种架构完全不同于传统的冯诺依曼架构,而是更接近人类大脑的运作方式。

  MoE模型在提升大模型的稀疏性上迈出了重要的一步,每次选择性的激活部分参数来处理特定任务,从而在保障性能表现的同时大幅降低功耗。

  在公司内部,Elon是抵抗公司人员规模增长的重要力量。你必须恳求Elon进行招聘,否则他会默认将团队规模控制在最小。

  与此同时,Elon对淘汰低绩效员工没有心理负担,没有大公司对员工的“溺爱”倾向,他总是会快速淘汰不合适的员工,保持团队精简且优秀。

  通常来说,一线工程师和CEO之间相隔着若干层中间管理层。但是Elon会直接走到办公室,和工程师直接交流。

  如果听到几次相同的反馈,他会直接打电话给负责GPU集群的经理,让他现在马上把GPU集群加倍。从现在开始,每天给我发送更新邮件,直到GPU集群完成加倍为止。

  Elon就是这样通过这样的方式,从业务一线获取,通过缩短沟通链路层层消除瓶颈,从而构建出一个具备强大战斗力的组织。

  AlphaGo训练的第二阶段,是强化学习。而这一部分是让模型变得Superhuman的关键。

  想象这么一个场景,人类标注员针对一道数学题,给出计算过程和答案,并且把标注的数据喂给ChatGPT做训练。

  人类标注数据的解题步骤中,有些步骤对模型来说是微不足道的细节,而有些步骤对模型来说是难以理解的巨大飞跃。

  因为人类无法像模型一样思考,人类标注的数据中会缺失模型需要学习的重要细节,这会导致其他训练集被污染。

  为了从根本上解决这个问题,我们需要让模型能够自我学习,自我迭代。模型需要自己弄明白哪些数据对它而言是有效的,哪些数据是无效的。

  如果把RLHF对应到AlphaGo的训练过程中的话,可能对应的只是奖励模型,因为它们做的事情都类似于vibe check。

  模仿学习很蠢,RLHF是一个小小的改进,但依然很蠢。如果要让模型变得真正聪明起来,就需要让模型经历真正的强化学习,自我迭代,这是实现AGI的关键。

  我希望它像美丽的珊瑚礁一样,充满着各种炫酷、令人兴奋的创新,由各种创业公司构成,它们构建的产品及服务满足各个垂直领域的需求。

  反过来说,随着AGI即将来临,如果最先进的人工智能技术被掌握在全球前五大巨头手中,很难想象社会将变成怎样。


040-88888888