- DeepSeekの登録から初期設定までの流れが理解できる
- 無料のR1モデルがどの程度の精度で動作するか、実装レベルで分かる
- 日本語での応答精度とチューニング方法を学べる
- ChatGPTやClaudeとの実際の性能差を数値で比較できる
- セキュリティ・データ保管の懸念点と、その現実的な評価ができる
- ローカル運用(Ollama)とAPI利用の使い分けが分かる
半年前、僕はDeepSeekを「中国製の怪しいAI」くらいの認識でいた。オープンソースで無料という触れ込みだったが、性能面で大丈夫か懐疑的だったのだ。だが実際に検証を開始して、その認識は大きく改まった。
DeepSeekの強力さに気づいたのは、R1モデルを初めて動かした時だった。複雑なアルゴリズム問題や、システム設計の相談を投げると、ChatGPTとほぼ同等か、むしろ優位な回答が返ってきた。スピードも想像以上に速い。
3ヶ月間、DeepSeekを毎日使ってから初めて、その全体像が見えた。確かに優れたモデルだが、日本語への対応は他のLLMより劣るし、データ保管に関する懸念も完全には払拭できない。つまり、「これが最高のAI」ではなく、「特定の用途では優秀なツール」という評価が正しい。
今回の記事では、その3ヶ月間の検証結果をまとめた。DeepSeekの登録方法から、実装での使い方、他のLLMとの性能比較まで、体験ベースで述べる。
DeepSeekとは何か
DeepSeekは中国企業が開発・運営している。データがどこに保存されているか、中国政府がアクセスできるのか、という疑問は完全には解決していない。本番システムの機密情報を投げるのは避けた方が無難だ。
DeepSeekは、中国のスタートアップが開発した大規模言語モデル(LLM)である。2024年の中盤に話題になり、その後急速に利用者を増やした。特に注目されたのは、オープンソース化され、完全無料で使用できるという点だ。
プロプライエタリなChatGPTやClaudeと異なり、DeepSeekのモデルはGitHub上で公開されている。これは、個人のローカルマシンで実行することも、カスタマイズして独自モデルを作成することも可能という意味だ。
複数のモデルサイズが公開されている。小規模な「Lite」から、大規模な「R1」まで、ユースケースに応じて選択できる。R1 は推論に特化したモデルで、複雑なロジック問題やアルゴリズム設計に強い。
無料で使えるオンラインプラットフォーム(DeepSeek官サイト)のほか、有料のAPIを通じた利用も可能だ。API料金はChatGPT・Claudeと比較して数分の1というのが、もう一つの強みである。
登録から初期利用まで(WebUI版)
deepseek.com にアクセスして、メールアドレスで登録する。英語のサイトだが、日本語対応の案内も用意されている。Gmail等のメールアドレスで問題なく登録可能だ。パスワード設定後、メール確認のリンクをクリックして本人確認が完了する。
ログイン後、「Chat」メニューから言語を「日本語」に変更できる。ただし、UIのみの翻訳で、応答の日本語精度とは別問題だ。
左上のメニューで「DeepSeek-V3」「DeepSeek-R1」を切り替えられる。R1 は推論特化、V3 は高速処理向けだ。
登録は5分で完了する。余計な認証ステップがなく、シンプルだ。実際、GoogleアカウントやGitHubアカウントでのSSO(シングルサインオン)ログインも可能だ。
| モデル | 推奨タスク | 処理速度 | 推論精度 | 日本語対応 |
|---|---|---|---|---|
| DeepSeek-V3 | 汎用回答、コード補完 | ★★★★★ | ★★★★☆ | ★★★☆☆ |
| DeepSeek-R1 | 複雑な推論、アルゴリズム | ★★★☆☆ | ★★★★★ | ★★★☆☆ |
| R1-Distill | 軽量推論タスク | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
DeepSeekの強み:驚異的な推論能力と低コスト
DeepSeek-R1 は、オープンソースLLMの中で最も推論能力が高いモデルと評されている。LeetCodeの難問、複雑な数学問題、システム設計の相談に特に強い。
R1モデルの最大の強みは、推論過程を明示してくれることだ。ChatGPTに複雑な問題を聞いても、直接答えだけが返ってくる。だがR1は、考えているプロセスを「思考タグ」として表示してくれる。これによって、なぜそういう結論に至ったのかが理解しやすくなった。
実装面での精度も高い。複雑なアルゴリズム問題(ダイナミックプログラミング、グラフアルゴリズム)で、R1とGPT-4o を同じ問題で比較したところ、R1の方が正答率が高かった。特に計算精度が求められるタスクではその差が顕著だった。
もう一つの強みはコストの低さだ。APIを使用する場合、1,000トークンあたりGPT-4 が約0.03ドルなのに対し、DeepSeek は 0.003ドル という10分の1の価格だ。つまり、同じ予算で10倍のリクエストを実行できる。
ChatGPT-4oの課題
- API料金が割高(1K tokens約3円)
- 推論プロセスが非表示
- 日本語対応は優秀だが、プロンプト工夫が必要
- 複雑な数学問題では計算ミスが増える
DeepSeek-R1の優位点
- API料金が極めて安い(1K tokens約0.3円)
- 推論過程を「思考タグ」として表示
- 複雑なロジック問題で高精度
- オープンソースでローカル実行も可能
DeepSeekの弱点:日本語対応と安全性の不安
3ヶ月使い続けて痛感した弱点がいくつかある。最初のものは、日本語対応の不十分さだ。
英語のプロンプトを与えた時と、日本語のプロンプトを与えた時で、応答品質に明らかな差がある。日本語でのニュアンス理解が甘く、曖昧な指示があると的外れな回答が返ってくることが多かった。特に、敬語の使い分けや、文化的な背景を要する質問では、精度が落ちた。
解決策としては、プロンプトを英語で書くか、複雑な日本語を簡潔な表現に変換してから投げることだ。ただしこれは手間である。ChatGPTやClaudeなら、複雑な日本語でもそのまま処理できるため、この点ではDeepSeek は劣っている。
セキュリティ面での懸念も拭えない。DeepSeekは中国企業が運営しており、機密情報やプライバシーデータをサーバーに送信することに不安を感じる人は多いだろう。公式には「データは学習に使用しない」と言及されているが、中国の政治体制を考えると、完全な信頼は難しい。
DeepSeek-R1 でも、ハルシネーション(存在しない事実を生成)は発生する。特に、最新情報(2024年以降の出来事)や、マイナーな日本企業の情報を聞くと、でっち上げられた情報が返ってくることがある。
ローカル実行(Ollama)による運用
Ollamaは、オープンソースLLMをローカル環境で実行するためのツールだ。DeepSeekはオープンソース化されているため、Ollamaを通じて自分のパソコンで完全にローカル実行できる。
DeepSeekのオープンソース版をローカル実行することで、クラウドサーバーにデータを送らずに利用できる。これは、セキュリティ懸念を完全に払拭する方法だ。
Ollamaのセットアップは簡潔だ。ollama.ai からインストーラをダウンロード、実行後、ターミナルで `ollama pull deepseek-r1` と入力するだけで、R1モデルがダウンロードされる。その後、`ollama serve` でローカルサーバーが起動し、ブラウザから http://localhost:11434 でアクセス可能になる。
ただし、注意点として、R1モデルは70Bパラメータ版で約40GB のディスク容量を必要とする。軽量版(Distill)なら8GBで済む。また、ローカル実行は処理速度がクラウド版より遅い傾向がある。通常のパソコンでは、複雑な推論タスクに10秒以上の処理時間がかかることもある。
インターネット接続が不安定な環境でも動作、データをローカルに保管できる、APIコスト不要、オフライン環境でも利用可能。
処理速度が遅い、マシンスペック要件が高い(CPU・メモリ・ストレージ)、セットアップの技術難度が高い。
セキュリティ重視の企業なら、ローカル実行で十分な価値がある。個人開発者なら、無料クラウド版で試してからの判断が合理的だ。
API利用とコスト比較
DeepSeekのAPI料金は、業界で最安クラスである。登録後、API キーを生成して、プログラマティックなアクセスが可能になる。
| モデル | 入力(1M tokens) | 出力(1M tokens) | 月額1000ドルの場合の利用量 |
|---|---|---|---|
| DeepSeek-V3 | $0.27 | $1.10 | 約9億tokens処理可 |
| DeepSeek-R1 | $0.55 | $2.19 | 約4.5億tokens処理可 |
| GPT-4o | $5.00 | $15.00 | 約6600万tokens処理可 |
| Claude 3.5 Sonnet | $3.00 | $15.00 | 約1.1億tokens処理可 |
同じ予算内で、DeepSeek-V3なら他のLLMの10倍以上のリクエストを実行できる。スタートアップや、スケール前の企業にとって、コスト面での利点は非常に大きい。
ただし注意は、推論精度が必要な場合だ。R1 は高精度だが、その分料金はV3より高い。用途に応じて、V3とR1を使い分けることが推奨される。
ChatGPT・Claudeとの実装レベル比較
Claudeが最も高品質なコードを生成する傾向がある。DeepSeekはそれに次ぎ、ChatGPTはやや劣る。ただし、差は微少で、プロンプトの質で逆転することもある。
ChatGPT とClaudeが優秀。DeepSeekは劣位。複雑な日本語タスク(翻訳、文章添削)では、ChatGPT/Claude が確実だ。
複雑なロジック問題ではDeepSeek-R1 が優位。数学、アルゴリズム、システム設計では、R1 の精度が目立つ。
結論として、「最高性能は何か」という問いに答えはなく、「タスク特性によって最適なモデルは変わる」が正解だ。
- DeepSeekは中国企業が開発した無料のオープンソースLLMで、R1モデルが推論に特化している
- 登録はメールアドレスのみで、Web版とAPIの両方で即座に利用可能
- API料金が極めて安く、同じ予算でGPT-4oの10倍以上のリクエスト処理ができる
- 推論精度は高いが、日本語対応はChatGPT・Claudeに劣る
- データセキュリティ懸念がある場合、Ollamaを使用したローカル実行が選択肢になる
- タスク特性(コスト重視ならDeepSeek、日本語重視ならChatGPT/Claude)で使い分けが最適