ディープシーク(DeepSeek 深度求索 ピンイン)
オープンソースの 大規模言語モデルを開発する中国の人工知能研究所のこと。
DeepSeek は、浙江省杭州市に拠点を置く
梁文鋒(Liang Wenfeng)
によって設立および運営されている中国のヘッジファンド
ハイフライヤー(High-Flyer)
から多額の資金提供を受けている。
2016年2月、ハイフライヤーはAI愛好家の梁文鋒氏によって共同設立された。
梁氏は浙江大学在学中、2007〜2008年の金融危機以来取引を行っていた。
2019年までに同氏はAI取引アルゴリズムの開発と使用に重点を置いたヘッジファンドとしてハイフライヤーを設立した。
2021年までにハイフライヤーは取引にAIのみを使用するようになった。
2023年4月、ハイフライヤーは金融事業とは別に、AIツールの研究開発に特化した
人工汎用知能研究所
を設立した。
2023年5月、ハイフライヤーが投資家の1社となり、研究所は
DeepSeek
という独自の会社となった。
なお、ベンチャーキャピタル企業では、短期間で出口を生み出せる可能性は低いため、資金提供に消極的だった。
2024年5月に低価格で強力なパフォーマンスを提供する
DeepSeek-V2
をリリースした後、DeepSeekは中国のAIモデル価格戦争の起爆剤として知られるようになった。
すぐに「 AIのPinduoduo 」と呼ばれ、
などの他の大手テクノロジー企業も、同社に対抗するためにAIモデルの価格を値下げし始めた。
DeepSeekは低価格にもかかわらず、赤字を計上していた競合他社と比較して利益を上げていた。
これまでのところ、DeepSeekは研究のみに焦点を当てており、商業化の詳細な計画はない。
DeepSeekは新入社員を採用する際に、職務経験よりも技術的な能力を重視しているため、新入社員のほとんどは最近大学を卒業した学生か、AIのキャリアがあまり確立されていない開発者が従事している。
2023年11月2日、DeepSeekは最初のモデルである
DeepSeek Coder
を発表した。
これは研究者と商用ユーザーの両方に無料で利用可能という。
モデルのコードはMITライセンスの下でオープンソース化され、モデル自体の「オープンで責任あるダウンストリームの使用」に関する追加のライセンス契約が締結された。
2023年11月29日、DeepSeekは670億パラメータまで拡張可能な
DeepSeek LLM
をリリースした。
これは、当時利用可能な他のLLMと競合するように開発され、GPT-4に近い性能を持っていた。
しかし、計算効率とスケーラビリティの面で課題に直面した。
このモデルのチャットボット版であるDeepSeek Chatもリリースされた。
2024年5月にDeepSeek-V2が発売された。
フィナンシャルタイムズは、100万出力トークンあたり2人民元の価格で、同業他社よりも安価であると報じた。
ウォータールー大学タイガーラボのリーダーボードでは、DeepSeek-V2はLLMランキングで7位にランクされた。
2024年12月、DeepSeek-V3が発売された。
6,710億のパラメータを備え、約55日間でトレーニングされ、コストは558万ドルで、同業他社に比べて大幅に少ないリソースを使用した。
14.8兆トークンのデータセットでトレーニングされた。ベンチマークテストでは、Llama 3.1やQwen 2.5よりも優れたパフォーマンスを発揮し、GPT-4oやClaude 3.5 Sonnetに匹敵することが示された。
限られたリソースでのDeepSeekの最適化は、中国のAI開発に対する
米国の制裁の潜在的な限界
を浮き彫りにした。
The Hillの意見記事では、このリリースをアメリカのAIがスプートニクの瞬間に到達したと表現した。
このモデルは、マルチヘッド潜在的注意力トランスフォーマーを備えたエキスパートの混合モデルで、256のルーティングされたエキスパートと共有エキスパート1つが含まれている。
各トークンは37B以上のパラメータをアクティブにする。
2024年11月には、論理的推論、数学的推論、リアルタイムの問題解決のために訓練された
2024年11月には、論理的推論、数学的推論、リアルタイムの問題解決のために訓練された
DeepSeek R1-Lite-Preview
がリリースされました。
DeepSeekは、アメリカ招待数学試験(AIME)やMATHなどのベンチマークでOpenAIo1のパフォーマンスを上回ったと主張した。
しかし、ウォールストリートジャーナルは、 2024年版のAIMEから15の問題を使用した場合、o1モデルはDeepSeek R1-Lite-Previewよりも速く解答に到達したと述べている。
2025年1月20日にDeepSeek-R1とDeepSeek-R1-Zeroがリリースされた。
これらはV3-Baseをベースにしている。
V3と同様に、それぞれ合計671Bのパラメータと37Bのアクティブパラメータを持つエキスパートの混合である。
また、R1に基づいていない「DeepSeek-R1-Distill」モデルもいくつかリリースされた。
代わりに、それらはLLaMAやQwenなどの他のオープンウェイトモデルに似ており、R1によって生成された合成データに基づいて微調整されている。
R1-Zeroは強化学習(RL)のみを使用して訓練され、教師あり微調整(SFT)は行われなかった。
これは、批評家モデルを使用する代わりに、グループスコアからベースラインを推定するグループ相対ポリシー最適化(GRPO)を使用して訓練された。
使用される報酬システムはルールベースであり、主に精度報酬とフォーマット報酬の2種類の報酬で構成される。
R1-Zeroの出力は読みにくく、出力内で英語と中国語が交互に表示される。
このため、これらの問題に対処し、推論をさらに改善するためにR1をトレーニングした。
【関連する記事】
- ルーセント・テクノロジー(Lucent Technologies)AT&Tテクノ..
- RJR ナビスコ(RJR Nabisco)タバコと食品を販売する米国の複合企業
- アッヴィ(AbbVie)イリノイ州ノースシカゴに本社を置く米国の製薬会社
- ノースアメリカン航空(North American Aviation)数々の著名..
- プラダ(Prada S.p.A. )ミラノファッションハウス
- サフラン(Safran S.A.)フランスの多国籍 航空宇宙、防衛、安全保障企業..
- マーシャルフィールド(Marshall Field's)イリノイ州シカゴの高級百..
- カザトムプロム(Kazatomprom Казатомпром)カザフスタンの国..