DeepSeekの使い方を一通り試して気づいた強みと弱点のリアルな両面

この記事でわかること
  • DeepSeekの登録から初期設定までの流れが理解できる
  • 無料のR1モデルがどの程度の精度で動作するか、実装レベルで分かる
  • 日本語での応答精度とチューニング方法を学べる
  • ChatGPTやClaudeとの実際の性能差を数値で比較できる
  • セキュリティ・データ保管の懸念点と、その現実的な評価ができる
  • ローカル運用(Ollama)とAPI利用の使い分けが分かる

半年前、僕はDeepSeekを「中国製の怪しいAI」くらいの認識でいた。オープンソースで無料という触れ込みだったが、性能面で大丈夫か懐疑的だったのだ。だが実際に検証を開始して、その認識は大きく改まった。

DeepSeekの強力さに気づいたのは、R1モデルを初めて動かした時だった。複雑なアルゴリズム問題や、システム設計の相談を投げると、ChatGPTとほぼ同等か、むしろ優位な回答が返ってきた。スピードも想像以上に速い。

3ヶ月間、DeepSeekを毎日使ってから初めて、その全体像が見えた。確かに優れたモデルだが、日本語への対応は他のLLMより劣るし、データ保管に関する懸念も完全には払拭できない。つまり、「これが最高のAI」ではなく、「特定の用途では優秀なツール」という評価が正しい。

今回の記事では、その3ヶ月間の検証結果をまとめた。DeepSeekの登録方法から、実装での使い方、他のLLMとの性能比較まで、体験ベースで述べる。

DeepSeekとは何か

セキュリティ懸念事項

DeepSeekは中国企業が開発・運営している。データがどこに保存されているか、中国政府がアクセスできるのか、という疑問は完全には解決していない。本番システムの機密情報を投げるのは避けた方が無難だ。

DeepSeekは、中国のスタートアップが開発した大規模言語モデル(LLM)である。2024年の中盤に話題になり、その後急速に利用者を増やした。特に注目されたのは、オープンソース化され、完全無料で使用できるという点だ。

プロプライエタリなChatGPTやClaudeと異なり、DeepSeekのモデルはGitHub上で公開されている。これは、個人のローカルマシンで実行することも、カスタマイズして独自モデルを作成することも可能という意味だ。

複数のモデルサイズが公開されている。小規模な「Lite」から、大規模な「R1」まで、ユースケースに応じて選択できる。R1 は推論に特化したモデルで、複雑なロジック問題やアルゴリズム設計に強い。

無料で使えるオンラインプラットフォーム(DeepSeek官サイト)のほか、有料のAPIを通じた利用も可能だ。API料金はChatGPT・Claudeと比較して数分の1というのが、もう一つの強みである。

登録から初期利用まで(WebUI版)

1 公式サイトでのアカウント作成

deepseek.com にアクセスして、メールアドレスで登録する。英語のサイトだが、日本語対応の案内も用意されている。Gmail等のメールアドレスで問題なく登録可能だ。パスワード設定後、メール確認のリンクをクリックして本人確認が完了する。

2 チャット画面への遷移

ログイン後、「Chat」メニューから言語を「日本語」に変更できる。ただし、UIのみの翻訳で、応答の日本語精度とは別問題だ。

3 モデル選択

左上のメニューで「DeepSeek-V3」「DeepSeek-R1」を切り替えられる。R1 は推論特化、V3 は高速処理向けだ。

登録は5分で完了する。余計な認証ステップがなく、シンプルだ。実際、GoogleアカウントやGitHubアカウントでのSSO(シングルサインオン)ログインも可能だ。

モデル 推奨タスク 処理速度 推論精度 日本語対応
DeepSeek-V3 汎用回答、コード補完 ★★★★★ ★★★★☆ ★★★☆☆
DeepSeek-R1 複雑な推論、アルゴリズム ★★★☆☆ ★★★★★ ★★★☆☆
R1-Distill 軽量推論タスク ★★★★☆ ★★★★☆ ★★★☆☆

DeepSeekの強み:驚異的な推論能力と低コスト

R1モデルの最大の強みは、推論過程を明示してくれることだ。ChatGPTに複雑な問題を聞いても、直接答えだけが返ってくる。だがR1は、考えているプロセスを「思考タグ」として表示してくれる。これによって、なぜそういう結論に至ったのかが理解しやすくなった。

実装面での精度も高い。複雑なアルゴリズム問題(ダイナミックプログラミング、グラフアルゴリズム)で、R1とGPT-4o を同じ問題で比較したところ、R1の方が正答率が高かった。特に計算精度が求められるタスクではその差が顕著だった。

もう一つの強みはコストの低さだ。APIを使用する場合、1,000トークンあたりGPT-4 が約0.03ドルなのに対し、DeepSeek は 0.003ドル という10分の1の価格だ。つまり、同じ予算で10倍のリクエストを実行できる。

ChatGPT-4oの課題

  • API料金が割高(1K tokens約3円)
  • 推論プロセスが非表示
  • 日本語対応は優秀だが、プロンプト工夫が必要
  • 複雑な数学問題では計算ミスが増える

DeepSeek-R1の優位点

  • API料金が極めて安い(1K tokens約0.3円)
  • 推論過程を「思考タグ」として表示
  • 複雑なロジック問題で高精度
  • オープンソースでローカル実行も可能

DeepSeekの弱点:日本語対応と安全性の不安

3ヶ月使い続けて痛感した弱点がいくつかある。最初のものは、日本語対応の不十分さだ。

英語のプロンプトを与えた時と、日本語のプロンプトを与えた時で、応答品質に明らかな差がある。日本語でのニュアンス理解が甘く、曖昧な指示があると的外れな回答が返ってくることが多かった。特に、敬語の使い分けや、文化的な背景を要する質問では、精度が落ちた。

解決策としては、プロンプトを英語で書くか、複雑な日本語を簡潔な表現に変換してから投げることだ。ただしこれは手間である。ChatGPTやClaudeなら、複雑な日本語でもそのまま処理できるため、この点ではDeepSeek は劣っている。

セキュリティ面での懸念も拭えない。DeepSeekは中国企業が運営しており、機密情報やプライバシーデータをサーバーに送信することに不安を感じる人は多いだろう。公式には「データは学習に使用しない」と言及されているが、中国の政治体制を考えると、完全な信頼は難しい。

ハルシネーション(幻覚)の問題

DeepSeek-R1 でも、ハルシネーション(存在しない事実を生成)は発生する。特に、最新情報(2024年以降の出来事)や、マイナーな日本企業の情報を聞くと、でっち上げられた情報が返ってくることがある。

ローカル実行(Ollama)による運用

DeepSeekのオープンソース版をローカル実行することで、クラウドサーバーにデータを送らずに利用できる。これは、セキュリティ懸念を完全に払拭する方法だ。

Ollamaのセットアップは簡潔だ。ollama.ai からインストーラをダウンロード、実行後、ターミナルで `ollama pull deepseek-r1` と入力するだけで、R1モデルがダウンロードされる。その後、`ollama serve` でローカルサーバーが起動し、ブラウザから http://localhost:11434 でアクセス可能になる。

ただし、注意点として、R1モデルは70Bパラメータ版で約40GB のディスク容量を必要とする。軽量版(Distill)なら8GBで済む。また、ローカル実行は処理速度がクラウド版より遅い傾向がある。通常のパソコンでは、複雑な推論タスクに10秒以上の処理時間がかかることもある。

1 ローカル実行のメリット

インターネット接続が不安定な環境でも動作、データをローカルに保管できる、APIコスト不要、オフライン環境でも利用可能。

2 ローカル実行のデメリット

処理速度が遅い、マシンスペック要件が高い(CPU・メモリ・ストレージ)、セットアップの技術難度が高い。

セキュリティ重視の企業なら、ローカル実行で十分な価値がある。個人開発者なら、無料クラウド版で試してからの判断が合理的だ。

API利用とコスト比較

DeepSeekのAPI料金は、業界で最安クラスである。登録後、API キーを生成して、プログラマティックなアクセスが可能になる。

モデル 入力(1M tokens) 出力(1M tokens) 月額1000ドルの場合の利用量
DeepSeek-V3 $0.27 $1.10 約9億tokens処理可
DeepSeek-R1 $0.55 $2.19 約4.5億tokens処理可
GPT-4o $5.00 $15.00 約6600万tokens処理可
Claude 3.5 Sonnet $3.00 $15.00 約1.1億tokens処理可

同じ予算内で、DeepSeek-V3なら他のLLMの10倍以上のリクエストを実行できる。スタートアップや、スケール前の企業にとって、コスト面での利点は非常に大きい。

ただし注意は、推論精度が必要な場合だ。R1 は高精度だが、その分料金はV3より高い。用途に応じて、V3とR1を使い分けることが推奨される。

ChatGPT・Claudeとの実装レベル比較

1 コード品質

Claudeが最も高品質なコードを生成する傾向がある。DeepSeekはそれに次ぎ、ChatGPTはやや劣る。ただし、差は微少で、プロンプトの質で逆転することもある。

2 日本語対応

ChatGPT とClaudeが優秀。DeepSeekは劣位。複雑な日本語タスク(翻訳、文章添削)では、ChatGPT/Claude が確実だ。

3 推論精度

複雑なロジック問題ではDeepSeek-R1 が優位。数学、アルゴリズム、システム設計では、R1 の精度が目立つ。

結論として、「最高性能は何か」という問いに答えはなく、「タスク特性によって最適なモデルは変わる」が正解だ。

この記事のまとめ
  • DeepSeekは中国企業が開発した無料のオープンソースLLMで、R1モデルが推論に特化している
  • 登録はメールアドレスのみで、Web版とAPIの両方で即座に利用可能
  • API料金が極めて安く、同じ予算でGPT-4oの10倍以上のリクエスト処理ができる
  • 推論精度は高いが、日本語対応はChatGPT・Claudeに劣る
  • データセキュリティ懸念がある場合、Ollamaを使用したローカル実行が選択肢になる
  • タスク特性(コスト重視ならDeepSeek、日本語重視ならChatGPT/Claude)で使い分けが最適

バイブコーディングを1日で習得しませんか?

AI登竜門では、プログラミング未経験の方でもたった1日でバイブコーディングを習得できるマンツーマン講座を開催しています。

オンライン説明会に参加する

関連記事