ローカルにdeepseek-R1をデプロイ

Ollamaは、ユーザーがローカルで大規模言語モデル(LLM)を実行およびデプロイできるようにすることを目的としたオープンソースのAIツールです。開発者がクラウドサービスに依存することなく、GPTのようなモデルをローカルマシン上で利用できる、便利で効率的な方法を提供することを目指しています。Ollamaは複数のモデルをサポートしており、パフォーマンスの最適化に重点を置いており、リソースが限られたデバイスでもこれらのモデルをスムーズに実行できるようにします。

Ollama を使用すれば、ユーザーはテキストベースの AI アプリケーションを利用でき、データプライバシーを気にすることなく、また高額な API 利用料金を心配することなく、ローカルにデプロイされたモデルと対話することができます。コマンドラインインターフェース(CLI)を通じて様々なモデルを呼び出し、自然言語処理や質問応答などのタスクを実行できます。

Ollamaは様々なモデルを試すのに適していますが、Windows版をテストしたところ、ハードウェアの性能を十分に発揮できないようです。原因はWindows版にあるのかもしれません。Linux版の方が良いかもしれません。32bパラメータのモデルをデプロイした場合、メモリやGPUの負荷が低いにも関わらず、応答速度が非常に遅いです。

ハードウェア概要

  • オペレーティングシステム:win11
  • CPU:i7-10700K
  • メモリ:40GB
  • グラフィックボード:RTX 3060 12GB

環境準備

新たにシステム環境変数を追加し、今後の利用を容易にします。

  1. set OLLAMA_MODELS=E:\ollama
    この変数は、Ollamaモデルの保存パスを指定します。E:\ollama はフォルダパスで、すべてのローカルモデルファイルがそのディレクトリに格納されていることを示しています。Ollamaは、このパスに基づいてダウンロードまたはデプロイした言語モデルをロードして使用します。モデルファイルを別の場所に保存したい場合は、このパスを変更するだけです。

  2. set OLLAMA_HOST=127.0.0.1:8000
    この環境変数は、Ollama サービスのホストとポートを設定します。

    • 127.0.0.1 はローカルアドレス(localhost)であり、Ollama サービスはローカルからのリクエストのみをリッスンします。
    • 8000は指定されたポート番号で、Ollamaサービスが8000ポートでリクエストを待機し処理することを示します。必要に応じてポート番号を変更できますが、そのポートが他のアプリケーションによって使用されていないことを確認してください。
  3. set OLLAMA_ORIGINS=*
    この環境変数は、Ollama サービスにアクセスできるリクエストのソースを制御します。

    • * は、Ollama サービスへのアクセスを任意のソース(すべてのドメインと IP アドレス)から許可することを意味します。これは通常、開発およびデバッグ環境で使用されます。本番環境では、セキュリティを高めるために、特定のドメインまたは IP からのみアクセスできるように、より厳格なソースの制御を指定することが一般的です。

DeepSeek-R1モデルのデプロイ

Ollamaのインストールは簡単で、ここでは詳細を説明しません。

インストール後の検証:

C:\Users\core>ollama -v
ollama version is 0.5.11

モデルのデプロイについては、公式ウェブサイトのモデルページを参照し、対応するパラメータを持つモデルを選択してください。例:ollama run deepseek-r1:14b

14bパラメータは会話のコンテキストを効果的に記憶できますが、より小さいパラメータバージョンではそれができません。32bパラメータバージョンについては、ローカルでのデプロイが非常に遅く、さらなるテストは行っていません。

参照資料

Licensed under CC BY-NC-SA 4.0
最終更新 2025年05月25日 14:10
金融ITプログラマーのいじくり回しと日常のつぶやき
Hugo で構築されています。
テーマ StackJimmy によって設計されています。