llama.cppでplamo-2-transaleを使う
Humming Faceの該当ページの説明が不足気味でローカルLLM使用初心者には意味が解らなかったが、何とか起動に漕ぎ着けた。
以下の前提で説明する。
Windows 11 25H2
RAM 16GB
NVIDIA製グラボ Turing以降 Tensorコア無し VRAM 6GB
llama.cppのダウンロード
LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.
例えばバージョンがb6715なら以下の2つのファイルをダウンロードして、任意の同一フォルダーに解凍しておく。
cudart-llama-bin-win-cuda-12.4-x64.zip
llama-b6715-bin-win-cuda-12.4-x64.zip
※「cudart~」はCUDAのランタイムなので、既にCUDAライブラリがインストールされている環境(何かの開発でCUDAを利用している等)では不要。
plamo-2-translateのダウンロード
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Humming Faceでは変換者の異なる2つのggufファイルが公開されているが、より具体的な説明をしているgrapevine-AI氏の方を使う。
ページ右のGGUFの囲みにあるQ4_K_Mをクリックすると表示されるポップアップにあるDownloadからダウンロードする。5.79GBもあるので、もしインターネット回線の安定性に不安があるならダウンローダー(Free Download Manager等)を使う事を強く推奨する。
※リストの下へ行く程AIの精度は高くなるが、要求されるRAMとVRAMも比例して多くなる。スペックを無視したものを選択しても起動出来ずに終わるし、ギリギリだとWindowsが不安定になり、最悪Windowsを巻き込んで落ちるので注意。
ダウンロードしたら、これをllama.cppと同じフォルダに置く。
起動
ターミナルから以下のコマンドを実行する。
chcp 65001 llama-cli -m "Plamo-2-Translate-Q4_K_M.gguf" --jinja -ngl 20 -c 16384
暫く待っているとターミナル上に英語で使用方法のメッセージと“>”が表示される。この状態で翻訳したい日本語または英語を入力すると、英訳または邦訳が表示される。
補足(解る人向け)
chcp 65001はターミナルで扱う文字コードをUTF-8に変更する。マルチプラットフォームのプログラムは大抵UTF-8を採用しているため。既にターミナルの設定でUTF-8にしている場合は不要。
--jinjaはビルトインテンプレートを使用するオプション。plamo-2-translateはllama.cppが持つどのテンプレートも合致しないため、モデルが内包するテンプレートを使用する必要がある。
--nglはどれだけVRAMを使用するかのオプション。-1だと可能な限りVRAMを使おうとする。今回は安全性を考慮して4GB程度使う指定にしている。
因みにGPUを使わないCPU版でもそれなりに動くが、VRAMで肩代わり出来ない分を全てRAMに割り当てるためRAMの使用量が非常に多くなる。私の環境では16GB中、Windowsが使用する分を含めて12GBも使用していた(GPU版だとWindowsが使用する分を含めて8~9GB程)。
-cは一度に入力出来る文字数(byte単位)を指定するオプション。このモデルの初期値は4KiB(4096byte)だが、余りにも少ないため16KiB(16384byte)に増やした。値に比例してVRAMの使用量が増えるため、増やし過ぎるとフリーズしたり回答が返らなかったりするので注意。入力文字列が実際に何byteかは一度ファイルに保存して確認する事を推奨。UTF-8は全角文字に3byte使うため、文字数と実際の容量が異なる場合が多いため。









