ubuntu安装llama.cpp 大模型最佳的驱动框架

2026年4月21日 13:25:10jack

jack

管理员

关注

27
文章

0
粉丝

一、安装依赖（必做）

打开终端，执行：

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential git cmake python3-pip libopenblas-dev libomp-dev

build-essential：GCC/G++/make
git：拉代码
cmake：构建系统
libopenblas-dev：CPU 矩阵加速（可选但强烈推荐）
libomp-dev：多线程加速

二、克隆并编译 llama.cpp

2.1 克隆仓库

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

新版 llama.cpp 已经废弃了 Makefile 构建方式，改为使用 CMake 了，所以你用 make 命令会报错。下面是完整的解决步骤，直接复制执行即可。

一、清理旧文件并使用 CMake 编译（带 CUDA 支持）

# 1. 进入 llama.cpp 目录
cd /media/jack/1a4a84f0-46c5-4a9f-aa07-4becaca65d8a/llama/llama.cpp

# 2. 清理旧构建（如果有）
rm -rf build
mkdir build && cd build

# 3. CMake 配置（启用 CUDA）
cmake .. -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release

# 4. 编译（全核心）
make -j$(nproc)

编译完成后，llama-server 会生成在 build/bin/ 目录下。

二、验证编译结果

# 检查是否生成了 llama-server
ls -l bin/llama-server

# 输出版本号验证
./bin/llama-server --version

三、用新生成的 `llama-server` 启动模型

# 回到 build 目录（或用绝对路径）
cd /media/jack/1a4a84f0-46c5-4a9f-aa07-4becaca65d8a/llama/llama.cpp/build

# 启动命令
./bin/llama-server \
  -m "/media/jack/1a4a84f0-46c5-4a9f-aa07-4becaca65d8a/owen3.5-9B-Q8_0.gguf" \
  -c 8192 \
  -ngl 35

四、关键说明

为什么会报错

从某个版本开始，llama.cpp 完全切换到了 CMake 构建，旧的 Makefile 已经被移除，所以 make clean/make CUDA=1 都会失败。

CUDA 编译前提

确保你已经安装了 NVIDIA 驱动和 CUDA Toolkit：

# 检查 CUDA 是否安装
nvcc --version
nvidia-smi

如果没装，执行：

sudo apt update && sudo apt install -y nvidia-cuda-toolkit

启动后访问

服务默认端口是 8080，启动成功后，你可以用浏览器打开 http://localhost:8080 或通过 OpenAI 兼容的 API 调用。

文章末尾固定信息

我的微信

微信号已复制

我的微信

微信扫一扫

ubuntu安装llama.cpp 大模型最佳的驱动框架

一、安装依赖（必做）

二、克隆并编译 llama.cpp

2.1 克隆仓库

一、清理旧文件并使用 CMake 编译（带 CUDA 支持）

二、验证编译结果

三、用新生成的 `llama-server` 启动模型

四、关键说明

hermes的绝佳可视化工具hermes-web-ui

在Ubunt24.04上安装Hermes AI agent

Ubuntu24.04如何开启SSH

达芬奇视频编辑软件安装教程

WordPress 独立站接入 PayPal 的详细步骤2

WordPress 独立站接入 PayPal 的详细步骤

跨境独立站必知：十大收款工具大盘点

Elementor基础：Container（容器）和Layout（布局）详解

加载中...

发表评论

热门搜索

一、安装依赖（必做）

二、克隆并编译 llama.cpp

2.1 克隆仓库

一、清理旧文件并使用 CMake 编译（带 CUDA 支持）

二、验证编译结果

三、用新生成的 llama-server 启动模型

四、关键说明

发表评论

三、用新生成的 `llama-server` 启动模型