公司资讯

半岛体育OpenAI 核心创始成员Andrej：让大模型像人脑一样低功耗运行

发布时间：2024-04-08 08:51人气：

　　半岛体育OpenAI 核心创始成员Andrej：让大模型像人脑一样低功耗运行近日，OpenAI核心创始成员Andrej Karpathy（已于24年2月离职）在红杉资本进行了一场精彩的分享。

　　Andrej分享了他关于大模型发展趋势的思考，包括LLM OS、新一代算法架构、如何降低大模型的功耗、AI时代下的创业机会等重要话题，干货满满，值得细品。

　　还有一个彩蛋，Andrej分享了此前在Tesla负责FSD时，对Elon管理哲学的观察与思考，也非常有趣。

　　而在LLM OS中，大模型本身就是中央处理器。I/O外设也不再是鼠标和键盘，因为LLM可以兼容更多模态的数据输入和输出。同时大模型调用的外部工具也将从传统软件升级为智能体工具。

　　传统操作系统中的缓存RAM，对应为LLM OS中的上下文窗口。传统操作系统中的文件存储，对应LLM OS中的向量数据库。

　　在传统操作系统时代，微软的Windows和Apple的Mac OS占据了主要市场份额，它们都是闭源操作系统。

　　但是Linux作为一股开源力量，催生出了一个庞大的开源操作系统生态。人们基于Linux构建了无数商业发行版，包括Ubuntu、CentOS、Redhat等。

　　与此同时，Meta开源的Llama模型已经成为一股开源力量，催生了开源大模型的生态体系，其中就包括Alpaca、Vicuna等著名开源模型。

　　目前真正完全开源的大模型，包括Pythia、LLM360、OLMo等。这些模型不只是开放了权重参数，而且开源了编译整个模型所需的基础设施。

　　如果大模型只开放了二进制权重文件半岛体育，你虽然可以对模型进行微调，但能微调的空间其实是有限的。因为你微调得越多半岛体育，模型会在其他方面开始回归。

　　如果你想在保持模型现有能力不回归的同时，给模型增加新的能力，你需要将旧的训练数据分布和新的训练数据分布进行混合，再喂给模型进行训练半岛体育。

　　如果你只拿到了模型的权重文件，你是无法做到这一步的。除了权重文件之外，你还需要训练数据集，以及训练代码。

　　这是因为训练大模型所需的基础设施架构仍然很不完善，它是一个非常复杂的分布式优化问题，这方面的人才极其稀缺。

　　训练ChatGPT的过程中，我能感受到整个基础设施一直是“摇摇欲坠”的。LLM训练基础设施层面的提升是行业亟待解决的重要问题。

　　这是很奇怪的一件事。想象一下，在一个模型空间中，有两个点的性能表现都非常优秀，而且它们之间没有任何关系。

　　我认为可能存在某种算法架构，能够统一这两种优秀的模型，让我们得以构造出一个复合架构，能够兼容自回归模型和扩散模型的优势。

　　人类大脑的功耗约20瓦，而Jensen（黄仁勋）在GTC大会上公布的超级电脑的功耗是以兆瓦为单位的。

　　因此，降低功耗的第一种途径，在于设计出新的计算机架构，来适应新的data workflow。

　　可以预见的是，AI时代需要全新的计算机系统架构，这种架构完全不同于传统的冯诺依曼架构，而是更接近人类大脑的运作方式。

　　MoE模型在提升大模型的稀疏性上迈出了重要的一步，每次选择性的激活部分参数来处理特定任务，从而在保障性能表现的同时大幅降低功耗。

　　在公司内部，Elon是抵抗公司人员规模增长的重要力量。你必须恳求Elon进行招聘，否则他会默认将团队规模控制在最小。

　　与此同时，Elon对淘汰低绩效员工没有心理负担，没有大公司对员工的“溺爱”倾向，他总是会快速淘汰不合适的员工，保持团队精简且优秀。

　　通常来说，一线工程师和CEO之间相隔着若干层中间管理层。但是Elon会直接走到办公室，和工程师直接交流。

　　如果听到几次相同的反馈，他会直接打电话给负责GPU集群的经理，让他现在马上把GPU集群加倍。从现在开始，每天给我发送更新邮件，直到GPU集群完成加倍为止。

　　Elon就是这样通过这样的方式，从业务一线获取，通过缩短沟通链路层层消除瓶颈，从而构建出一个具备强大战斗力的组织。

　　AlphaGo训练的第二阶段，是强化学习。而这一部分是让模型变得Superhuman的关键。

　　想象这么一个场景，人类标注员针对一道数学题，给出计算过程和答案，并且把标注的数据喂给ChatGPT做训练。

　　人类标注数据的解题步骤中，有些步骤对模型来说是微不足道的细节，而有些步骤对模型来说是难以理解的巨大飞跃。

　　因为人类无法像模型一样思考，人类标注的数据中会缺失模型需要学习的重要细节，这会导致其他训练集被污染。

　　为了从根本上解决这个问题，我们需要让模型能够自我学习，自我迭代。模型需要自己弄明白哪些数据对它而言是有效的，哪些数据是无效的。

　　如果把RLHF对应到AlphaGo的训练过程中的话，可能对应的只是奖励模型，因为它们做的事情都类似于vibe check。

　　模仿学习很蠢，RLHF是一个小小的改进，但依然很蠢。如果要让模型变得真正聪明起来，就需要让模型经历真正的强化学习，自我迭代，这是实现AGI的关键。

　　我希望它像美丽的珊瑚礁一样，充满着各种炫酷、令人兴奋的创新，由各种创业公司构成，它们构建的产品及服务满足各个垂直领域的需求。

　　反过来说，随着AGI即将来临，如果最先进的人工智能技术被掌握在全球前五大巨头手中，很难想象社会将变成怎样。

咨询热线：