您好,欢迎观临半岛体育官网!

咨询热线:

040-88888888

半岛体育登录入口大模型系列:LLaMA大模型简述和本地部署实践

发布时间:2024-04-07 10:56人气:

  LLaMA是Meta AI公司在2023年2月发布的开源大模型,在开放基准上有着非常出色的表现,是迄今为止最流行的开放语言模型之一。

  同期谷歌的PaLM大模型,OpenAI的GPT-4都采用闭源的方式,不能从源码来剖析模型的结构,LLaMA的开源降低了大模型的研究门槛,后续许多大模型都是借鉴或沿用了LLaMA的模型框架。另一方面由于LLaMA的开源,开发者可以将LLaMA作为基座模型进行本地部署搭建,用新的语料继续预训练或者微调,从而保证了数据的安全性不需要发送给第三方。

  LLaMA和GPT系列一样采用Transformer的堆叠Decoder,以上下文预测下一个词作为预测目标,在海量文本上进行无监督预训练。LLaMA的训练语料是以英语为主的拉丁语系,在分词方面,LLaMA采用sentencepiece实现的Byte-level BPE对语料进行分词编码。

  和标准的Transformer相比,LLaMA借鉴了同期其他的研究成果对模型的局部结构进行了调整,包括

  为了使模型训练更加稳定,在Decoder单元将第一个层归一化移动到多头注意力之前,将第二个层归一化移动到前馈传播层之前半岛体育,同时残差连接位置调整到多头注意力层和前馈传播层之后,如下图所示

  在归一化的计算方式上,采用RMSNorm函数,相比于标准的LayerNorm舍弃了均值的影响,是均值为0时LayerNorm的特例,使得计算变得简单加快模型训练和推理效率。

  LLaMA采用门控线性单元GLU配合Swish激活函数,代替了标准transformer的前馈传播层全连接+ReLU的结构,SwishGLU的形式在大部分测评中被证明比全连接+ReLU更加有效。SwiGLU的计算公式如下

  LLaMA采用旋转位置编码Rotary Position Embedding,RoPE的思想是找到一个变换将位置信息注入Query和Key向量中,这样注意力中的Query和Key的内积计算能够感知到两者的相对位置距离,这个变换的求解结果对应为向量旋转,因此取名为旋转位置编码。

  LLaMA对中文的支持较差,训练数据中中文占比很少,且词表对中文字符的覆盖度不够,因此本篇采用Llama中文社区推出的原子大模型Atom,它基于LLaMA架构在中文语料上重新预训练,并且拓充了词表提高了模型对中文文本表征能力和编码解码速度,可在HuggingFace模型仓库进行下载

  将问题:“请给一个去苏州旅游的攻略”拼入Human Assistant提示词模板,文本生成如下

  s Human: 请给一个去苏州旅游的攻略 /ss Assistant: 1. 交通:建议乘坐高铁或飞机前往,距离上海约2小时车程。也可以选择自驾车或者公共汽车出行。 2. 住宿推荐:可以住在市中心的酒店、民宿等住宿设施中;也可以考虑在风景优美的郊区寻找合适的住所。 3. 推荐景点:拙政园(中国四大名园之一)、狮子林(园林艺术瑰宝)、留园(江南古典私家花园的典范)、虎丘塔(古代建筑和石刻艺术的代表)等等。 4. 建议游玩时间:5-7天为宜,每天安排一到两个主要景区游览即可。 5. 注意事项:带好身份证件以及必要的证件如护照签证等,注意天气变化并携带雨具防晒用品等物品。遵守当地法律法规及风俗习惯和文化禁忌。尊重当地的文化传统和环境保护意识。避免与当地人发生冲突或其他不愉快的事情。 6. 其他信息:了解一些关于苏州的历史文化和风土人情的知识是非常有益的。还可以参加一些本地的特色活动体验一下当地的生活方式与文化氛围。最后记得留下自己的旅行心得和经验分享哦! /s

  text-generation-webui是一个用于运行大型语言模型的Gradio Web用户界面,他可以将本地的模型文件部署为一个Web服务,实现模型推理,问答对话,模型训练,参数管理等功能。

  在Parameters界面可以对generate的参数进行调整吗,比如最大生成单词数,温度系数,top-k,top-p等。

  其他功能读者可自行测试,本文作为对LLaMA的简单介绍和快速开始,后续会对其中部分技术细节做深入分析,全文完毕。

  淘宝优惠券作为电商营销的重要手段之一,其无线推广转换策略也显得愈发重要。那么,淘宝优惠券如何有效转换无线推广呢?本...

  自然成为了消费者们购物的首选。而在淘宝购物中,领取优惠券无疑是一种省钱的好方法。那么,淘宝店铺优惠券怎么领呢?本文...

  在微信公众号运营中半岛体育,点赞功能作为一种互动方式,不仅能够提升用户的参与度,还能为公众号带来更多的曝光和关注。那么,公...

  《维和防暴队》电影票原价45元,现在关注公众号【奥特快外卖】推出限时优惠活动半岛体育,购票可享受8折优惠!同时还有特价票,...

  飞天茅台作为中国酱香型白酒的代表作,以其独特的酿造工艺、卓越的品质和深厚的文化底蕴享誉全球。然而,在市场上,飞天茅...

  仿线个购买渠道 仿真手表是一种近年来备受追捧的时尚配饰,它不仅可以彰显个人品味,还能提升整...

  不得不说,现在的社会变化真的太快了,连体制内的铁饭碗工作都不一定能保证一辈子的稳定。发展副业,下班回家做点兼职赚钱...

  手游内测资格怎么获得? 这是每款新游戏开放内测的时候,玩家问的最多的一个问题,其实现在大多数游戏在上线之前官方都会...

  为了你获得更好的游戏体验,本文仅显示《囚鸟2OSAKA绚丽之夜》剧本杀部分复盘,获取完整复盘只需两步 ①【...

  【潮鞋天堂】莆田鞋子批发官网APP火爆上线!正品直供,价格优惠!探索鞋界的精粹,涉足6大莆田鞋子批发官网app,是...

  关键词:大语言模型,分词,BPE,BBPE 前言 token是大模型处理和生成语言文本的基本单位,在之前介绍的Be...

  大模型推理: 目前在项目中试验了多种大模型:llama,vicuna,chatglm,ziya,baichuan,...

  随着ChatGPT的迅速出圈,加速了大模型时代的变革。对于以Transformer、MOE结构为代表的大模型来说,...

  LLaMA: Open and Efficient Foundation Language Models Feb ...

  Llama一直被誉为AI社区中最强大的开源大模型。然而,由于开源协议的限制,它一直不能被免费用于商业用途。然而,这...


040-88888888