我要投稿

Meta最新开源大语言模型Llama 2 简介及本地运行方法

发布日期：2025-05-08 14:18:06 浏览次数： 110 来源：云36AI

Llama 2是一个免费开源大语言的模型，可以在自己的机器上本地运行。Llama 2是对早期Llama模型的完善改进版本。本文我们就介绍一下Llama 2的变化以及在本地运行的方法。

概述

LLama 2是Meta于2023年7月发布的免费开源大型语言模型。发布了两个模型系列。

Llama 2 ：相关数据比Llama 1多40%。上下文长度加倍。有利于句子的完成。

Llama 2-Chat ：针对Chat GPT等对话使用进行了优化。

7B、13B和70B版本均适用于这两个系列。

Llama 2新内容

模型架构

LLama 2模型架构与Llama模型非常相似。模型架构的改进主要是增加了上下文长度和分组查询注意力。

上下文长度 是语言模型在生成响应时可以在输入文本中考虑的标记数量（类似于单词或子词）。原始llama 模型的上下文长度为2,048。Llama 2的上下文长度增加了一倍，最大可为4,096。

分组查询注意力（GQA） 是一种新的优化方法，用于解决由于上下文长度和模型大小增加而导致的高内存使用问题。它通过共享之前token缓存键和值来减少内存使用量。GQA 仅用于34B和70B Llama 2版本。

预训练

和Llama 1和预训练类似，Llama 2支持更大的预训练数据集。从Llama 1模型的1.0 和1.4万亿个tokens增加到2.0万亿个tokens。

根据官方的基础测试结果：更大的预训练数据集在所有评估的指标上都带来了更高的性能。

监督微调 (SFT)

在微调模型时，质量比数量更重要。Llama 2使用了多种技术对模型进行了微调。

SFT注释 ：高质量的提示和响应对。

带人类反馈的强化学习 (RLHF) ：让人类说出他或她更喜欢哪个答案。然后教模型用人类喜欢的答案进行回应。

人类偏好 提供安全且 有用的响应。 模型学习根据人类反馈

本地运行

预安装text-generate-webUI

Text- Generation-webui 是一个免费的 GUI，旨在为Windows、Mac 和 Linux 上运行语言模型提供便捷方法和平台。Text- Generation-webui提供大量便捷功能，用来管理和各个大模型和以及和模型进行交互，支持 LLaMA, llama.cpp, GPT-J, OPT, 和GALACTICA等。

下载Llama 2模型

在Text- Generation-webui 中，导航到 “模型” 页面。在 下载自定义模型或 LoRA 部分中，输入 Huggingface路径， 在下面找到的要下载的模型的。刷新模型列表并加载新下载的模型。

如果实现ChatGPT 等对话风格模式则需要下载Llama-2-Chat模型，需要下载它们。比如Llama-2-Chat 7B模型，下载

localmodels/Llama-2-7B-Chat-GPTQlocalmodels/Llama-2-7B-GPTQ

其他模型类似。

Mac用户或Windows CPU用户（无计算显卡）

对于没有专门计算显卡的Mac或Windows用户，可以从以下页面下载Llama 2模型对应的.bin文件来运行模型。它们是不同的量化，旨在减小文件大小。

下载一个.bin文件模型并将其放入text- Generation-webui > models文件夹中。刷新模型页面上的模型列表。

最后，选择并加载模型然后就可以愉快的使用自己的大模型了。

在线试用

如果你仅仅想尝试一下，则不需要那么麻烦，可以直接在huggingface上试用，速度超快，其他自己体验。

vs ChatGPT

当谈到能够生成极其类似人类文本的大数据模型时，LLaMA和ChatGPT都是业界翘楚。尽管都很优秀，但某些关键方面还是有些不同：

Meta的LlaMA（Large Language Model Meta AI）是LLM方面新来者。其设计时候讲求效率和最小的资源需求，，使其更容易被更广泛的受众使用。LlaMA的突出特点并且开源免费，可以在非商业许可下可用，允许研究人员和组织很方便地将其免费引入其项目中。

而OpenAI的ChatGPT则是当今世界最先进的生成人工智能系统之一。它具有超强的其自然语言能力，在很多项目上甚至超越了人类专家，是新一代AI热潮爆发的主因。

LlaMA和ChatGPT的基础都是Transformer——一种用于机器学习的人工神经网络，用于分析大量数据并根据收集到的见解生成新颖的内容或预测。

LlaMA和ChatGPT最大的区别是其规模大小。LlaMA 强调效率和低资源消耗，比许多其他LLM更加紧凑。虽然参数较少，但它通过优化效率来平衡这一点。

ChatGPT是LLM 领域的巨头，拥有超过1750亿个参数。它的巨大规模需要强大的计算能力，但也使其能够生成复杂而复杂的语言。

LlaMA和ChatGPT的学习方法都是无监督的，都不依赖人类标记的数据来学习。他们使用来自互联网或其他资源的大量文本数据进行训练，根据识别的模式创建新文本。

两者之间的主要区别在于训练数据的性质。LlaMA在从科学文章到新闻报道的各种文本上磨练其技能。相比之下，ChatGPT的训练场主要包括网页和社交媒体内容等互联网文本。这表明LlaMA可能更适合生成专业或技术语言，而ChatGPT可能在创建非正式或会话语言方面表现出色。

LlaMA和ChatGPT都代表了语言模型的前沿，有可能彻底改变自然语言处理应用程序。尽管存在差异，但它们具有共同的核心能力：生成深度智能化的类人语言，在聊天机器人、内容生成等领域发生质的飞跃。

另外，国产LLM也有相关进展，几天前阿里在github、ModelScope以及Hugging Face上开源了自己的大语言模型通义千问 Qwen-7B ，有兴趣的同学可以去尝试一下。

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业