8-11 gpt-oss モデル
学習目標
llama.cpp を介して gpt-oss モデルを使用し、簡単なプロンプトを送信することで回答を取得できます。さらに、WebUI を介して gpt-oss モデルにアクセスすることも可能です。

gpt-ossとは?
gpt-oss is an open-source large reasoning model developed by OpenAI. It possesses the capability to both reason and execute complex challenges and agentic tasks. In other words, you can provide it with a problem or a command, and it will "think it through" to either deliver a solution or perform tool calls.
gpt-ossでできること
1. 複雑な問題を与えると、厳密な論理に基づいて解決策を導き出します。
2. エージェントタスクを与えると、外部ツールを自律的に呼び出して実行します。
使い始めるには?
llama.cppをインストールしてください。ビルドには通常時間がかかります。
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
mkdir build
cd build/
cmake .. -DGGML_CUDA=ON -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc
make -j$(nproc)
2. 量子化モデルをダウンロードします。
cd ../../
wget \
-O models/gpt-oss-20b-Q4_K_S.gguf \
https://huggingface.co/unsloth/gpt-oss-20b-GGUF/resolve/main/gpt-oss-20b-Q4_K_S.gguf?download=true
3. 端末でチャットする。
./llama.cpp/build/bin/llama-cli \
-m models/gpt-oss-20b-Q4_K_S.gguf \
-ngl 40
4. 実行すると、次の出力が表示されます。

5. 次に、質問を入力することで会話を開始できます。たとえば、「『strawberry』には『r』がいくつありますか?」と入力すると、次のような出力が表示されます。

6. WebUI経由でチャットを行うために必要なパッケージをインストールしてください。
curl -LsSf https://astral.sh/uv/install.sh | sh
source ~/.bashrc
uv venv --python 3.11 --seed
uv pip install --no-cache-dir open-webui
7. パッケージをインストールしたら、いずれかのターミナルウィンドウでサーバーを起動してください。
./llama.cpp/build/bin/llama-server \
-m models/gpt-oss-20b-Q4_K_S.gguf \
--host 0.0.0.0 \
-n 128 \
-ngl 999
8. 成功すると、次の画面が表示されます。

9. 別のターミナル( 同じくDockerコンテナ内 )でWebUIを開きます。
uv run open-webui serve --host 0.0.0.0 --port 8081
10. 成功すると、次の画面が表示されます。

11. 次に、ブラウザを開き、https://127.0.0.1:8081 にアクセスしてアカウントを登録します。

12. 「モデルを選択」をクリックし、次に「接続を管理」をクリックしてください。

13. プラス(+)アイコンをクリックしてください。

14. 情報を入力し、「保存」をクリックしてください。

15. 次に、モデルを選択し、質問を入力すると、以下の結果が生成されます。

参考資料 :
ggml-org/llama.cpp: LLM inference in C/C++