7-12 VLM (視覚言語モデル) の開発

学習目標

VLM（Vision-Language Model）は、画像と自然言語の両方を理解できるAIモデルです。視覚情報と言語情報を統合することで、画像キャプション生成や視覚的な質問応答といったマルチモーダルなタスクを実行できます。

VLMの実行効率を向上させるには、LLM（Large Language Model）の量子化が重要なステップとなります。しかし、一部の量子化ツールはJetsonプラットフォームに直接インストールできません。この問題を解決するため、NVIDIAはJetsonコンテナを提供しています。Jetsonコンテナは、様々なハードウェアやJetPackバージョンに対応した互換性のあるコンテナ環境を提供し、デプロイメントを簡素化し、開発を加速させます。

初期環境設定

// If you encounter any Docker-related errors, please refer to the tutorial in Chapter 5

git clone https://github.com/dusty-nv/jetson-containers

bash jetson-containers/install.sh

イメージをダウンロードして起動します

sudo jetson-containers run $(autotag nano_llm)

VLMを実行する

// The results will be displayed directly in the terminal

python3 -m nano_llm.chat --api=mlc \

  --model Efficient-Large-Model/VILA1.5-3b \

  --prompt '/data/images/lake.jpg' \

  --prompt 'please describe the scene.'

jetson-containers/data/imagesフォルダは、説明したい画像を配置できる場所です。--prompt引数を対応する画像ファイル名で更新してください。例：--prompt '/data/images/lake.jpg'