DeepSeek:震撼 AI 界的中國新星,或將引領新一輪技術競速

Kordan Ou
9 min readJan 27, 2025

--

Soure: https://www.youtube.com/watch?v=YJnxMoibXW0&ab_channel=AISymbiosis

一、 DeepSeek的崛起:OpenAI自2022年12月以來首次遭遇真正挑戰

近日,來自中國的 DeepSeek 橫空出世,一舉佔據了 AI 領域各大討論版面的頭條。這是自2022年12月OpenAI 發布基於GPT-3.5的 ChatGPT 以來,首次在 AI 領域喪失了最高話語權,跌落至 “挑戰者” 的地位。這與過去50個月里科技巨頭們的境遇相似:無論如何努力,都難以撼動先行者的地位。

DeepSeek 的出現標誌著一個新的開始。作為新晉王者,其採用的技術路線和發展模式,勢必成為其他 tier 1 或 tier 2 挑戰者們爭相效仿的對象。可以預見,AI 技術將進入一個前所未有的加速發展階段。

二、 DeepSeek的技術創新:從SFT到RL,邁向AGI的激進之路

DeepSeek 的突破性在於其另闢蹊徑的訓練模型方式。不同於過去幾十個月里主流的監督微調(SFT),DeepSeek 採用了更為激進的強化學習(RL)方法。簡單來說,DeepSeek 摒棄了對 AI 自主運作的限制,讓機器在學習過程中不斷自我生成資料,實現持續的自主學習和調整,更接近人類的學習模式。

人們在討論 DeepSeek 如何降低 AI 成本的同時,往往忽略了一個更重要的事實:DeepSeek 的目標直指通用人工智慧(AGI),並且正以極為激進的方式推進技術發展。

值得注意的是,RL 並非 DeepSeek 首創,而是一項存在已久的機器學習技術。OpenAI 理論上也完全有能力達到甚至超越 DeepSeek 的技術水平。然而,過去出於對 “安全 AI” 的考量,OpenAI 選擇了較為保守的折衷方案,最終導致了其在2025年或將落後於 DeepSeek 的局面。

三、 美國的回應:安全讓位,”拿回領先”成為唯一目標

對於一家以營利為目標、且在過去幾十個月里幾乎壟斷了全球 AI 技術發展資源的矽谷公司而言,OpenAI 勢必會做出反擊。從 OpenAI 內部到美國政府層面,”安全” 的討論將不再是重點,”拿回領先” 將成為唯一目標。

可以預見,過去全球(主要是美國和矽谷)在發展 AI 技術時,出於 “社會責任” 而設定的能力限制器將在2025年開始被逐步移除。到2025年底,我們可能會看到超乎想象的 AI 發展,真正進入 “AI-First” 時代。

然而,在這樣的時代中,有多少人能適應和生存,目前還是一個未知數。

不負責任的預期: 2025年底,人們討論的焦點將不再是 DeepSeek,而是更加兇猛的 DeepFake 議題如何影響全世界。

四、 DeepSeek創始人梁文鋒:低調的技術理想主義者

DeepSeek 的創辦人梁文鋒,是一位典型的技術理想主義者。他出生於1985年,是一位來自廣東湛江的普通家庭,父親是一名小學教師。他於2002年考入浙江大學電子訊息工程專業,並在2010年獲得訊息與通訊工程碩士學位。

2015年30歲的梁文鋒創立了幻方量化,迅速成為中國量化投資領域的領軍企業,幻方量化後來成為中國量化私募 “四巨頭” 之一,管理資產規模曾突破1000億人民幣。

2023年,梁文鋒成立了北京深度求索,隨後創立了杭州深度求索人工智慧基礎技術研究有限公司(DeepSeek),專注於 AI 大模型的研究與開發。

梁文鋒的個人特點:

  • 技術追求:親自參與產品研發,甚至編寫程式碼,與團隊一起攻剋技術難題。他堅信人工智慧可以改變世界,並致力於推動技術與社會的共贏發展。
  • 管理風格:採用扁平化的組織結構,所有研究人員直接向他匯報,給予團隊充分的尊重和自由,鼓勵成員大膽嘗試創新。
  • 行事風格:為人低調,鮮少接受媒體採訪,但透過化名 “一隻平凡的小豬” 捐贈了超過1.38億元。

五、 DeepSeek的影響:低算力實現高效能,引發業界反思

美國科技股因為中國 deepseek 用演算法抵算力(nvidia)直逼 chatgpt 的表現而下行,英偉達盤前已 -5.33%,博通-4.88%,AMD-2.96%,高通-3.04%

DeepSeek 用較低的算力實現了比肩甚至超越頂尖模型的效果,引發了業界的廣泛關注和討論。萬維鋼認為,這對所有人來說都是重大啓發,OpenAI 也應該思考其中的原因。如果 DeepSeek 找到了低算力高效率的大門,對整個人類都是好消息。

然而,萬維鋼也指出,OpenAI 投入巨大算力並非白費。他認為,DeepSeek 的模型可能在特定領域(如數學和程式設計)做了優化,但在其他任務上的表現還不夠強。他猜測這其中可能存在二八定律:用較少的算力資源可以應付80%的問題,但要覆蓋剩下的20%,則需要投入多得多的資源,而後者正是 OpenAI 要做的事。

六、 日經的觀點:DeepSeek或將引發川普重新收緊對華科技管控

《日經亞洲》認為,DeepSeek 的出現,可能讓原本打算放鬆對華態度的川普,重新緊緊縮對中國的科技管控。

七、 震驚矽谷的杭州公司:DeepSeek的成功之道與背後的巨額算力投入

1月20日,總部位於杭州的 AI 公司「深度求索(DeepSeek)」發布了一個推理模型 DeepSeek-R1,在數學、程式設計及推理基準測試中,匹敵甚至超越了矽谷最先進的模型。更令人震驚的是,R1 的開發成本不到600萬美元,僅是 Meta 訓練 Llama3.1的十分之一。

DeepSeek-R1 完全開放源碼,提供免費網頁使用,還發表論文公開了所有技術細節,其透明度甚至超過了矽谷公司。在創新技術、成本效益和開源透明三方面,DeepSeek 都將美國科技巨頭比下去了。

DeepSeek 的創辦人梁文鋒表示,創立 DeepSeek 主要出於科學好奇,而非追逐盈利。他採用 “只看能力,不問經驗” 的招聘原則,核心職位都由應屆和畢業一兩年的年輕人擔任。公司內部維持 “淡化職級、極為扁平” 的文化,成員根據具體目標分成不同研究小組,組內成員沒有上下級關系,而是 “自然分工”。DeepSeek 目前只有139人。

DeepSeek 的成功之道,歸根結底是 “無為而治”,讓一群極聰明且有共同理念的人自由發展。此外,美國在2022年10月開始的出口管制,迫使 DeepSeek 只能使用低配版 H800 晶片,價錢比矽谷科技公司的晶片低一大截,也間接促成了其在模型架構上的創新,從而突破了技術瓶頸。

然而,DeepSeek宣稱的低成本開發(600萬美金)與實際情況存在巨大出入。根據現有資料,幻方/DeepSeek在算力上的投入遠超這個數字:

  • 2019年,幻方投入2億人民幣購入1100片GPU 算卡(未指明品牌)。並在 Nvidia 推出 A100 後,成為亞太地區首批拿到 A100 的商家。
  • 2020年算力增加情況未知。
  • 2021年,幻方入手破萬張 A100 顯卡,斥資高達10億人民幣。
  • 2025年在達沃斯會議上,Alexandr Wang 公開表示,他聽說業界傳聞幻方擁有5萬張 H100 顯卡。
  • 如果以每年增加一萬張的速度估算,且目前 H100 的價格約為3萬美金,那麼五萬張 H100 的總價就高達15億美金。這還僅僅是算力建立的成本,尚未包括設備維護、人員薪資和電力成本。
  • 即使退一步,假設幻方從始至終只依靠一萬張 A100,其投入也至少達到10億人民幣(官方說法),同樣不包括設備維護、人員薪資和電力成本。

這些數據清晰地表明,DeepSeek的實際研發成本遠遠超過其宣稱的558萬美金或600萬美金。其背後是幻方在算力上的巨額投入,以及長期積累的技術實力。

八、 DeepSeek是真正的開拓者:在自動數學推理領域的早期貢獻

部分觀點認為 DeepSeek 只是追隨者,這是完全錯誤的。DeepSeek 早期在自動數學推理領域做了大量探索,例如推出了 DeepSeekMath 數學 LLM 推理模型。DeepSeekMath-7B 發布後,競賽團隊前四名都使用了這個模型作為基礎模型。

DeepSeek 摒棄政治意識形態,專注於前沿研究探索,是真正的創新者,尤其在對人類文明至關重要的神經數學定理自動證明領域,DeepSeek 更是扮演了開拓者的角色。

九、關於DeepSeek創辦人梁文鋒的其他補充

  • 2021年,梁文鋒購入10,000顆H800 晶片。(這與前面提到的萬張 A100 資訊存在重疊,可能是不同來源資料的表述差異,需要進一步核實)
  • DeepSeek 宣稱這是斜槓計畫,但顯然這是一種戰略欺騙。他們實際上將其當作登月計劃,用各種手法拿到 GPU 及運算資源。
  • 世界上最消耗 GPU 的工作是訓練大型語言模型,量化投資實際上不需要那麼多 GPU。
  • 梁文鋒希望作為副業開發 “人類” 級別的人工智慧,並向合作夥伴提出計劃,但最初遭到懷疑。
  • 他將他對沖基金的核心員工帶到這個新項目,這些員工都有豐富的經驗,擅長從 Nvidia GPU 中擠出效能。
  • 2023年推出 DeepSeek,並從中國頂尖大學(北大、清華、北航)聘請數十位博士。
  • 提供超高薪資,吸引頂尖技術人才,薪酬水平僅次於位元組跳動,目標讓 DeepSeek 成為領先的中國本土公司。
  • 美國出口管制迫使 DeepSeek 團隊發揮創意,並成功找出新穎的訓練方法,將 LLM 模型(V3,r1)的競爭力提升至與 OpenAI、Anthropic、Gemini、Grok、Llama 等相當,成本約為它們的1/20。(這個成本比例是相對於其宣稱的低成本而言,實際上 DeepSeek 的成本遠高於此)
  • 訓練成本並不完全可比,但方法新穎且效率明顯提高(也有關於是否抄襲其他模型、是否使用更大 H-100 叢集的疑問,可能還有中共政府的支持)。
  • 開放源始碼並發表研究方法(r1 推理論文有200多位作者)。
  • 這是2024年5月12日的資訊,當時注意到 DeepSeek v2 的表現令人驚嘆。
  • DeepSeek 剛剛登上 App Store 排行榜的頂端。
  • High-Flyer 量化對沖基金目前管理資產規模達80億美元。

十、總結:美中國運之戰,AI 將是戰場

DeepSeek 的成功,到底是曇花一現抑或陸續有來,還很難說。但有一點可以肯定:這是一場國運之戰,而 AI 將是戰場。DeepSeek 的崛起,不僅是對 OpenAI 的挑戰,更是對整個 AI 產業格局的衝擊。其背後的巨額算力投入和技術積累,也揭示了中國在 AI 領域的雄心和實力。未來,我們將見證更多技術突破和模式創新,而中美兩國在 AI 領域的競爭也將更加激烈。

推薦閱讀:

--

--

Kordan Ou
Kordan Ou

Written by Kordan Ou

我是 KryptoGO 的創辦人,同時也是一位加密貨幣的投資者和愛好者。我非常熱愛加密金融科技,並一直關注著行業監管的最新發展。如果你對這個領域感興趣,或是對加密貨幣和區塊鏈有疑問,歡迎關注我!我們可以一起探討這個迅速發展的領域,了解更多有趣的資訊。更多關於我:https://kordan.me

No responses yet