7-12 VLM (視覚言語モデル) の開発

学習目標

VLM(Vision-Language Model)は、画像と自然言語の両方を理解できるAIモデルです。視覚情報と言語情報を統合することで、画像キャプション生成や視覚的な質問応答といったマルチモーダルなタスクを実行できます。

VLMの実行効率を向上させるには、LLM(Large Language Model)の量子化が重要なステップとなります。しかし、一部の量子化ツールはJetsonプラットフォームに直接インストールできません。この問題を解決するため、NVIDIAはJetsonコンテナを提供しています。Jetsonコンテナは、様々なハードウェアやJetPackバージョンに対応した互換性のあるコンテナ環境を提供し、デプロイメントを簡素化し、開発を加速させます。

初期環境設定

// If you encounter any Docker-related errors, please refer to the tutorial in Chapter 5
git clone https://github.com/dusty-nv/jetson-containers
bash jetson-containers/install.sh

イメージをダウンロードして起動します

sudo jetson-containers run $(autotag nano_llm)

VLMを実行する

// The results will be displayed directly in the terminal
python3 -m nano_llm.chat --api=mlc \
  --model Efficient-Large-Model/VILA1.5-3b \
  --prompt '/data/images/lake.jpg' \
  --prompt 'please describe the scene.'

 

jetson-containers/data/imagesフォルダは、説明したい画像を配置できる場所です。--prompt引数を対応する画像ファイル名で更新してください。例:--prompt '/data/images/lake.jpg'

 

Copyright © 2026 YUAN High-Tech Development Co., Ltd.
All rights reserved.