Discover Top Posts Tagged with #plamo2

vsngrv

Oct 9, 2025

llama.cppでplamo-2-transaleを使う

Humming Faceの該当ページの説明が不足気味でローカルLLM使用初心者には意味が解らなかったが、何とか起動に漕ぎ着けた。

以下の前提で説明する。

Windows 11 25H2

RAM 16GB

NVIDIA製グラボ Turing以降 Tensorコア無し VRAM 6GB

llama.cppのダウンロード

LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.

例えばバージョンがb6715なら以下の2つのファイルをダウンロードして、任意の同一フォルダーに解凍しておく。

cudart-llama-bin-win-cuda-12.4-x64.zip

llama-b6715-bin-win-cuda-12.4-x64.zip

※「cudart～」はCUDAのランタイムなので、既にCUDAライブラリがインストールされている環境(何かの開発でCUDAを利用している等)では不要。

plamo-2-translateのダウンロード

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Humming Faceでは変換者の異なる2つのggufファイルが公開されているが、より具体的な説明をしているgrapevine-AI氏の方を使う。

ページ右のGGUFの囲みにあるQ4_K_Mをクリックすると表示されるポップアップにあるDownloadからダウンロードする。5.79GBもあるので、もしインターネット回線の安定性に不安があるならダウンローダー(Free Download Manager等)を使う事を強く推奨する。

※リストの下へ行く程AIの精度は高くなるが、要求されるRAMとVRAMも比例して多くなる。スペックを無視したものを選択しても起動出来ずに終わるし、ギリギリだとWindowsが不安定になり、最悪Windowsを巻き込んで落ちるので注意。

ダウンロードしたら、これをllama.cppと同じフォルダに置く。

起動

ターミナルから以下のコマンドを実行する。

chcp 65001 llama-cli -m "Plamo-2-Translate-Q4_K_M.gguf" --jinja -ngl 20 -c 16384

暫く待っているとターミナル上に英語で使用方法のメッセージと“>”が表示される。この状態で翻訳したい日本語または英語を入力すると、英訳または邦訳が表示される。

補足(解る人向け)

chcp 65001はターミナルで扱う文字コードをUTF-8に変更する。マルチプラットフォームのプログラムは大抵UTF-8を採用しているため。既にターミナルの設定でUTF-8にしている場合は不要。

--jinjaはビルトインテンプレートを使用するオプション。plamo-2-translateはllama.cppが持つどのテンプレートも合致しないため、モデルが内包するテンプレートを使用する必要がある。

--nglはどれだけVRAMを使用するかのオプション。-1だと可能な限りVRAMを使おうとする。今回は安全性を考慮して4GB程度使う指定にしている。

因みにGPUを使わないCPU版でもそれなりに動くが、VRAMで肩代わり出来ない分を全てRAMに割り当てるためRAMの使用量が非常に多くなる。私の環境では16GB中、Windowsが使用する分を含めて12GBも使用していた(GPU版だとWindowsが使用する分を含めて8～9GB程)。

-cは一度に入力出来る文字数(byte単位)を指定するオプション。このモデルの初期値は4KiB(4096byte)だが、余りにも少ないため16KiB(16384byte)に増やした。値に比例してVRAMの使用量が増えるため、増やし過ぎるとフリーズしたり回答が返らなかったりするので注意。入力文字列が実際に何byteかは一度ファイルに保存して確認する事を推奨。UTF-8は全角文字に3byte使うため、文字数と実際の容量が異なる場合が多いため。

#日記 #LLM #LocalLLM #llama #plamo2