DeepSeek：震撼 AI 界的中國新星，或將引領新一輪技術競速

9 min readJan 27, 2025

Soure: https://www.youtube.com/watch?v=YJnxMoibXW0&ab_channel=AISymbiosis

一、 DeepSeek的崛起：OpenAI自2022年12月以來首次遭遇真正挑戰

近日，來自中國的 DeepSeek 橫空出世，一舉佔據了 AI 領域各大討論版面的頭條。這是自2022年12月OpenAI 發布基於GPT-3.5的 ChatGPT 以來，首次在 AI 領域喪失了最高話語權，跌落至 “挑戰者” 的地位。這與過去50個月里科技巨頭們的境遇相似：無論如何努力，都難以撼動先行者的地位。

DeepSeek 的出現標誌著一個新的開始。作為新晉王者，其採用的技術路線和發展模式，勢必成為其他 tier 1 或 tier 2 挑戰者們爭相效仿的對象。可以預見，AI 技術將進入一個前所未有的加速發展階段。

二、 DeepSeek的技術創新：從SFT到RL，邁向AGI的激進之路

DeepSeek 的突破性在於其另闢蹊徑的訓練模型方式。不同於過去幾十個月里主流的監督微調（SFT），DeepSeek 採用了更為激進的強化學習（RL）方法。簡單來說，DeepSeek 摒棄了對 AI 自主運作的限制，讓機器在學習過程中不斷自我生成資料，實現持續的自主學習和調整，更接近人類的學習模式。

人們在討論 DeepSeek 如何降低 AI 成本的同時，往往忽略了一個更重要的事實：DeepSeek 的目標直指通用人工智慧（AGI），並且正以極為激進的方式推進技術發展。

值得注意的是，RL 並非 DeepSeek 首創，而是一項存在已久的機器學習技術。OpenAI 理論上也完全有能力達到甚至超越 DeepSeek 的技術水平。然而，過去出於對 “安全 AI” 的考量，OpenAI 選擇了較為保守的折衷方案，最終導致了其在2025年或將落後於 DeepSeek 的局面。

三、美國的回應：安全讓位，”拿回領先”成為唯一目標

對於一家以營利為目標、且在過去幾十個月里幾乎壟斷了全球 AI 技術發展資源的矽谷公司而言，OpenAI 勢必會做出反擊。從 OpenAI 內部到美國政府層面，”安全” 的討論將不再是重點，”拿回領先” 將成為唯一目標。

可以預見，過去全球（主要是美國和矽谷）在發展 AI 技術時，出於 “社會責任” 而設定的能力限制器將在2025年開始被逐步移除。到2025年底，我們可能會看到超乎想象的 AI 發展，真正進入 “AI-First” 時代。

然而，在這樣的時代中，有多少人能適應和生存，目前還是一個未知數。

不負責任的預期： 2025年底，人們討論的焦點將不再是 DeepSeek，而是更加兇猛的 DeepFake 議題如何影響全世界。

四、 DeepSeek創始人梁文鋒：低調的技術理想主義者

DeepSeek 的創辦人梁文鋒，是一位典型的技術理想主義者。他出生於1985年，是一位來自廣東湛江的普通家庭，父親是一名小學教師。他於2002年考入浙江大學電子訊息工程專業，並在2010年獲得訊息與通訊工程碩士學位。

2015年，30歲的梁文鋒創立了幻方量化，迅速成為中國量化投資領域的領軍企業，幻方量化後來成為中國量化私募 “四巨頭” 之一，管理資產規模曾突破1000億人民幣。

2023年，梁文鋒成立了北京深度求索，隨後創立了杭州深度求索人工智慧基礎技術研究有限公司（DeepSeek），專注於 AI 大模型的研究與開發。

梁文鋒的個人特點：

技術追求：親自參與產品研發，甚至編寫程式碼，與團隊一起攻剋技術難題。他堅信人工智慧可以改變世界，並致力於推動技術與社會的共贏發展。
管理風格：採用扁平化的組織結構，所有研究人員直接向他匯報，給予團隊充分的尊重和自由，鼓勵成員大膽嘗試創新。
行事風格：為人低調，鮮少接受媒體採訪，但透過化名 “一隻平凡的小豬” 捐贈了超過1.38億元。

五、 DeepSeek的影響：低算力實現高效能，引發業界反思

美國科技股因為中國 deepseek 用演算法抵算力（nvidia）直逼 chatgpt 的表現而下行，英偉達盤前已 -5.33%，博通-4.88%，AMD-2.96%，高通-3.04% 。

DeepSeek 用較低的算力實現了比肩甚至超越頂尖模型的效果，引發了業界的廣泛關注和討論。萬維鋼認為，這對所有人來說都是重大啓發，OpenAI 也應該思考其中的原因。如果 DeepSeek 找到了低算力高效率的大門，對整個人類都是好消息。

然而，萬維鋼也指出，OpenAI 投入巨大算力並非白費。他認為，DeepSeek 的模型可能在特定領域（如數學和程式設計）做了優化，但在其他任務上的表現還不夠強。他猜測這其中可能存在二八定律：用較少的算力資源可以應付80%的問題，但要覆蓋剩下的20%，則需要投入多得多的資源，而後者正是 OpenAI 要做的事。

六、日經的觀點：DeepSeek或將引發川普重新收緊對華科技管控

《日經亞洲》認為，DeepSeek 的出現，可能讓原本打算放鬆對華態度的川普，重新緊緊縮對中國的科技管控。

七、震驚矽谷的杭州公司：DeepSeek的成功之道與背後的巨額算力投入

1月20日，總部位於杭州的 AI 公司「深度求索（DeepSeek）」發布了一個推理模型 DeepSeek-R1，在數學、程式設計及推理基準測試中，匹敵甚至超越了矽谷最先進的模型。更令人震驚的是，R1 的開發成本不到600萬美元，僅是 Meta 訓練 Llama3.1的十分之一。

DeepSeek-R1 完全開放源碼，提供免費網頁使用，還發表論文公開了所有技術細節，其透明度甚至超過了矽谷公司。在創新技術、成本效益和開源透明三方面，DeepSeek 都將美國科技巨頭比下去了。

DeepSeek 的創辦人梁文鋒表示，創立 DeepSeek 主要出於科學好奇，而非追逐盈利。他採用 “只看能力，不問經驗” 的招聘原則，核心職位都由應屆和畢業一兩年的年輕人擔任。公司內部維持 “淡化職級、極為扁平” 的文化，成員根據具體目標分成不同研究小組，組內成員沒有上下級關系，而是 “自然分工”。DeepSeek 目前只有139人。

DeepSeek 的成功之道，歸根結底是 “無為而治”，讓一群極聰明且有共同理念的人自由發展。此外，美國在2022年10月開始的出口管制，迫使 DeepSeek 只能使用低配版 H800 晶片，價錢比矽谷科技公司的晶片低一大截，也間接促成了其在模型架構上的創新，從而突破了技術瓶頸。

然而，DeepSeek宣稱的低成本開發（600萬美金）與實際情況存在巨大出入。根據現有資料，幻方/DeepSeek在算力上的投入遠超這個數字：

2019年，幻方投入2億人民幣購入1100片GPU 算卡（未指明品牌）。並在 Nvidia 推出 A100 後，成為亞太地區首批拿到 A100 的商家。
2020年算力增加情況未知。
2021年，幻方入手破萬張 A100 顯卡，斥資高達10億人民幣。
2025年在達沃斯會議上，Alexandr Wang 公開表示，他聽說業界傳聞幻方擁有5萬張 H100 顯卡。
如果以每年增加一萬張的速度估算，且目前 H100 的價格約為3萬美金，那麼五萬張 H100 的總價就高達15億美金。這還僅僅是算力建立的成本，尚未包括設備維護、人員薪資和電力成本。
即使退一步，假設幻方從始至終只依靠一萬張 A100，其投入也至少達到10億人民幣（官方說法），同樣不包括設備維護、人員薪資和電力成本。

這些數據清晰地表明，DeepSeek的實際研發成本遠遠超過其宣稱的558萬美金或600萬美金。其背後是幻方在算力上的巨額投入，以及長期積累的技術實力。

八、 DeepSeek是真正的開拓者：在自動數學推理領域的早期貢獻

部分觀點認為 DeepSeek 只是追隨者，這是完全錯誤的。DeepSeek 早期在自動數學推理領域做了大量探索，例如推出了 DeepSeekMath 數學 LLM 推理模型。DeepSeekMath-7B 發布後，競賽團隊前四名都使用了這個模型作為基礎模型。

DeepSeek 摒棄政治意識形態，專注於前沿研究探索，是真正的創新者，尤其在對人類文明至關重要的神經數學定理自動證明領域，DeepSeek 更是扮演了開拓者的角色。

九、關於DeepSeek創辦人梁文鋒的其他補充

2021年，梁文鋒購入10,000顆H800 晶片。（這與前面提到的萬張 A100 資訊存在重疊，可能是不同來源資料的表述差異，需要進一步核實）
DeepSeek 宣稱這是斜槓計畫，但顯然這是一種戰略欺騙。他們實際上將其當作登月計劃，用各種手法拿到 GPU 及運算資源。
世界上最消耗 GPU 的工作是訓練大型語言模型，量化投資實際上不需要那麼多 GPU。
梁文鋒希望作為副業開發 “人類” 級別的人工智慧，並向合作夥伴提出計劃，但最初遭到懷疑。
他將他對沖基金的核心員工帶到這個新項目，這些員工都有豐富的經驗，擅長從 Nvidia GPU 中擠出效能。
2023年推出 DeepSeek，並從中國頂尖大學（北大、清華、北航）聘請數十位博士。
提供超高薪資，吸引頂尖技術人才，薪酬水平僅次於位元組跳動，目標讓 DeepSeek 成為領先的中國本土公司。
美國出口管制迫使 DeepSeek 團隊發揮創意，並成功找出新穎的訓練方法，將 LLM 模型（V3，r1）的競爭力提升至與 OpenAI、Anthropic、Gemini、Grok、Llama 等相當，成本約為它們的1/20。（這個成本比例是相對於其宣稱的低成本而言，實際上 DeepSeek 的成本遠高於此）
訓練成本並不完全可比，但方法新穎且效率明顯提高（也有關於是否抄襲其他模型、是否使用更大 H-100 叢集的疑問，可能還有中共政府的支持）。
開放源始碼並發表研究方法（r1 推理論文有200多位作者）。
這是2024年5月12日的資訊，當時注意到 DeepSeek v2 的表現令人驚嘆。
DeepSeek 剛剛登上 App Store 排行榜的頂端。
High-Flyer 量化對沖基金目前管理資產規模達80億美元。

十、總結：美中國運之戰，AI 將是戰場

DeepSeek 的成功，到底是曇花一現抑或陸續有來，還很難說。但有一點可以肯定：這是一場國運之戰，而 AI 將是戰場。DeepSeek 的崛起，不僅是對 OpenAI 的挑戰，更是對整個 AI 產業格局的衝擊。其背後的巨額算力投入和技術積累，也揭示了中國在 AI 領域的雄心和實力。未來，我們將見證更多技術突破和模式創新，而中美兩國在 AI 領域的競爭也將更加激烈。

DeepSeek：震撼 AI 界的中國新星，或將引領新一輪技術競速

Written by Kordan Ou

No responses yet