LLaMA(全称 Large Language Model Meta AI),是 Meta(原 Facebook) 公司于 2023 年 推出的一系列开源大语言模型(LLM)。它是目前全球最具影响力的开源 AI 模型之一,极大地推动了大模型技术的普及与本地化部署。

在 Ubuntu 上安装 llama.cpp,推荐直接从源码编译(最灵活、支持 CPU/GPU 加速)。以下是完整、可复制的步骤(适配 Ubuntu 20.04 / 22.04 / 24.04)。
一、安装依赖(必做)
打开终端,执行:
sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential git cmake python3-pip libopenblas-dev libomp-dev
build-essential:GCC/G++/makegit:拉代码cmake:构建系统libopenblas-dev:CPU 矩阵加速(可选但强烈推荐)libomp-dev:多线程加速
二、克隆并编译 llama.cpp
2.1 克隆仓库
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
新版 llama.cpp 已经废弃了 Makefile 构建方式,改为使用 CMake 了,所以你用
make 命令会报错。下面是完整的解决步骤,直接复制执行即可。一、清理旧文件并使用 CMake 编译(带 CUDA 支持)
# 1. 进入 llama.cpp 目录
cd /media/jack/1a4a84f0-46c5-4a9f-aa07-4becaca65d8a/llama/llama.cpp
# 2. 清理旧构建(如果有)
rm -rf build
mkdir build && cd build
# 3. CMake 配置(启用 CUDA)
cmake .. -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release
# 4. 编译(全核心)
make -j$(nproc)
编译完成后,
llama-server 会生成在 build/bin/ 目录下。二、验证编译结果
# 检查是否生成了 llama-server
ls -l bin/llama-server
# 输出版本号验证
./bin/llama-server --version
三、用新生成的 llama-server 启动模型
# 回到 build 目录(或用绝对路径)
cd /media/jack/1a4a84f0-46c5-4a9f-aa07-4becaca65d8a/llama/llama.cpp/build
# 启动命令
./bin/llama-server \
-m "/media/jack/1a4a84f0-46c5-4a9f-aa07-4becaca65d8a/owen3.5-9B-Q8_0.gguf" \
-c 8192 \
-ngl 35
四、关键说明
- 为什么会报错
从某个版本开始,llama.cpp 完全切换到了 CMake 构建,旧的
Makefile已经被移除,所以make clean/make CUDA=1都会失败。 - CUDA 编译前提
确保你已经安装了 NVIDIA 驱动和 CUDA Toolkit:
# 检查 CUDA 是否安装 nvcc --version nvidia-smi如果没装,执行:
sudo apt update && sudo apt install -y nvidia-cuda-toolkit - 启动后访问
服务默认端口是 8080,启动成功后,你可以用浏览器打开
http://localhost:8080或通过 OpenAI 兼容的 API 调用。
文章末尾固定信息
我的微信
微信号已复制
我的微信
微信扫一扫

