一、 DeepSeek的崛起:OpenAI自2022年12月以來首次遭遇真正挑戰
近日,來自中國的 DeepSeek 橫空出世,一舉佔據了 AI 領域各大討論版面的頭條。這是自2022年12月OpenAI 發布基於GPT-3.5的 ChatGPT 以來,首次在 AI 領域喪失了最高話語權,跌落至 “挑戰者” 的地位。這與過去50個月里科技巨頭們的境遇相似:無論如何努力,都難以撼動先行者的地位。
DeepSeek 的出現標誌著一個新的開始。作為新晉王者,其採用的技術路線和發展模式,勢必成為其他 tier 1 或 tier 2 挑戰者們爭相效仿的對象。可以預見,AI 技術將進入一個前所未有的加速發展階段。
二、 DeepSeek的技術創新:從SFT到RL,邁向AGI的激進之路
DeepSeek 的突破性在於其另闢蹊徑的訓練模型方式。不同於過去幾十個月里主流的監督微調(SFT),DeepSeek 採用了更為激進的強化學習(RL)方法。簡單來說,DeepSeek 摒棄了對 AI 自主運作的限制,讓機器在學習過程中不斷自我生成資料,實現持續的自主學習和調整,更接近人類的學習模式。
人們在討論 DeepSeek 如何降低 AI 成本的同時,往往忽略了一個更重要的事實:DeepSeek 的目標直指通用人工智慧(AGI),並且正以極為激進的方式推進技術發展。
值得注意的是,RL 並非 DeepSeek 首創,而是一項存在已久的機器學習技術。OpenAI 理論上也完全有能力達到甚至超越 DeepSeek 的技術水平。然而,過去出於對 “安全 AI” 的考量,OpenAI 選擇了較為保守的折衷方案,最終導致了其在2025年或將落後於 DeepSeek 的局面。
三、 美國的回應:安全讓位,”拿回領先”成為唯一目標
對於一家以營利為目標、且在過去幾十個月里幾乎壟斷了全球 AI 技術發展資源的矽谷公司而言,OpenAI 勢必會做出反擊。從 OpenAI 內部到美國政府層面,”安全” 的討論將不再是重點,”拿回領先” 將成為唯一目標。
可以預見,過去全球(主要是美國和矽谷)在發展 AI 技術時,出於 “社會責任” 而設定的能力限制器將在2025年開始被逐步移除。到2025年底,我們可能會看到超乎想象的 AI 發展,真正進入 “AI-First” 時代。
然而,在這樣的時代中,有多少人能適應和生存,目前還是一個未知數。
不負責任的預期: 2025年底,人們討論的焦點將不再是 DeepSeek,而是更加兇猛的 DeepFake 議題如何影響全世界。
四、 DeepSeek創始人梁文鋒:低調的技術理想主義者
DeepSeek 的創辦人梁文鋒,是一位典型的技術理想主義者。他出生於1985年,是一位來自廣東湛江的普通家庭,父親是一名小學教師。他於2002年考入浙江大學電子訊息工程專業,並在2010年獲得訊息與通訊工程碩士學位。
2015年,30歲的梁文鋒創立了幻方量化,迅速成為中國量化投資領域的領軍企業,幻方量化後來成為中國量化私募 “四巨頭” 之一,管理資產規模曾突破1000億人民幣。
2023年,梁文鋒成立了北京深度求索,隨後創立了杭州深度求索人工智慧基礎技術研究有限公司(DeepSeek),專注於 AI 大模型的研究與開發。
梁文鋒的個人特點:
- 技術追求:親自參與產品研發,甚至編寫程式碼,與團隊一起攻剋技術難題。他堅信人工智慧可以改變世界,並致力於推動技術與社會的共贏發展。
- 管理風格:採用扁平化的組織結構,所有研究人員直接向他匯報,給予團隊充分的尊重和自由,鼓勵成員大膽嘗試創新。
- 行事風格:為人低調,鮮少接受媒體採訪,但透過化名 “一隻平凡的小豬” 捐贈了超過1.38億元。
五、 DeepSeek的影響:低算力實現高效能,引發業界反思
美國科技股因為中國 deepseek 用演算法抵算力(nvidia)直逼 chatgpt 的表現而下行,英偉達盤前已 -5.33%,博通-4.88%,AMD-2.96%,高通-3.04% 。
DeepSeek 用較低的算力實現了比肩甚至超越頂尖模型的效果,引發了業界的廣泛關注和討論。萬維鋼認為,這對所有人來說都是重大啓發,OpenAI 也應該思考其中的原因。如果 DeepSeek 找到了低算力高效率的大門,對整個人類都是好消息。
然而,萬維鋼也指出,OpenAI 投入巨大算力並非白費。他認為,DeepSeek 的模型可能在特定領域(如數學和程式設計)做了優化,但在其他任務上的表現還不夠強。他猜測這其中可能存在二八定律:用較少的算力資源可以應付80%的問題,但要覆蓋剩下的20%,則需要投入多得多的資源,而後者正是 OpenAI 要做的事。
六、 日經的觀點:DeepSeek或將引發川普重新收緊對華科技管控
《日經亞洲》認為,DeepSeek 的出現,可能讓原本打算放鬆對華態度的川普,重新緊緊縮對中國的科技管控。
七、 震驚矽谷的杭州公司:DeepSeek的成功之道與背後的巨額算力投入
1月20日,總部位於杭州的 AI 公司「深度求索(DeepSeek)」發布了一個推理模型 DeepSeek-R1,在數學、程式設計及推理基準測試中,匹敵甚至超越了矽谷最先進的模型。更令人震驚的是,R1 的開發成本不到600萬美元,僅是 Meta 訓練 Llama3.1的十分之一。
DeepSeek-R1 完全開放源碼,提供免費網頁使用,還發表論文公開了所有技術細節,其透明度甚至超過了矽谷公司。在創新技術、成本效益和開源透明三方面,DeepSeek 都將美國科技巨頭比下去了。
DeepSeek 的創辦人梁文鋒表示,創立 DeepSeek 主要出於科學好奇,而非追逐盈利。他採用 “只看能力,不問經驗” 的招聘原則,核心職位都由應屆和畢業一兩年的年輕人擔任。公司內部維持 “淡化職級、極為扁平” 的文化,成員根據具體目標分成不同研究小組,組內成員沒有上下級關系,而是 “自然分工”。DeepSeek 目前只有139人。
DeepSeek 的成功之道,歸根結底是 “無為而治”,讓一群極聰明且有共同理念的人自由發展。此外,美國在2022年10月開始的出口管制,迫使 DeepSeek 只能使用低配版 H800 晶片,價錢比矽谷科技公司的晶片低一大截,也間接促成了其在模型架構上的創新,從而突破了技術瓶頸。
然而,DeepSeek宣稱的低成本開發(600萬美金)與實際情況存在巨大出入。根據現有資料,幻方/DeepSeek在算力上的投入遠超這個數字:
- 2019年,幻方投入2億人民幣購入1100片GPU 算卡(未指明品牌)。並在 Nvidia 推出 A100 後,成為亞太地區首批拿到 A100 的商家。
- 2020年算力增加情況未知。
- 2021年,幻方入手破萬張 A100 顯卡,斥資高達10億人民幣。
- 2025年在達沃斯會議上,Alexandr Wang 公開表示,他聽說業界傳聞幻方擁有5萬張 H100 顯卡。
- 如果以每年增加一萬張的速度估算,且目前 H100 的價格約為3萬美金,那麼五萬張 H100 的總價就高達15億美金。這還僅僅是算力建立的成本,尚未包括設備維護、人員薪資和電力成本。
- 即使退一步,假設幻方從始至終只依靠一萬張 A100,其投入也至少達到10億人民幣(官方說法),同樣不包括設備維護、人員薪資和電力成本。
這些數據清晰地表明,DeepSeek的實際研發成本遠遠超過其宣稱的558萬美金或600萬美金。其背後是幻方在算力上的巨額投入,以及長期積累的技術實力。
八、 DeepSeek是真正的開拓者:在自動數學推理領域的早期貢獻
部分觀點認為 DeepSeek 只是追隨者,這是完全錯誤的。DeepSeek 早期在自動數學推理領域做了大量探索,例如推出了 DeepSeekMath 數學 LLM 推理模型。DeepSeekMath-7B 發布後,競賽團隊前四名都使用了這個模型作為基礎模型。
DeepSeek 摒棄政治意識形態,專注於前沿研究探索,是真正的創新者,尤其在對人類文明至關重要的神經數學定理自動證明領域,DeepSeek 更是扮演了開拓者的角色。
九、關於DeepSeek創辦人梁文鋒的其他補充
- 2021年,梁文鋒購入10,000顆H800 晶片。(這與前面提到的萬張 A100 資訊存在重疊,可能是不同來源資料的表述差異,需要進一步核實)
- DeepSeek 宣稱這是斜槓計畫,但顯然這是一種戰略欺騙。他們實際上將其當作登月計劃,用各種手法拿到 GPU 及運算資源。
- 世界上最消耗 GPU 的工作是訓練大型語言模型,量化投資實際上不需要那麼多 GPU。
- 梁文鋒希望作為副業開發 “人類” 級別的人工智慧,並向合作夥伴提出計劃,但最初遭到懷疑。
- 他將他對沖基金的核心員工帶到這個新項目,這些員工都有豐富的經驗,擅長從 Nvidia GPU 中擠出效能。
- 2023年推出 DeepSeek,並從中國頂尖大學(北大、清華、北航)聘請數十位博士。
- 提供超高薪資,吸引頂尖技術人才,薪酬水平僅次於位元組跳動,目標讓 DeepSeek 成為領先的中國本土公司。
- 美國出口管制迫使 DeepSeek 團隊發揮創意,並成功找出新穎的訓練方法,將 LLM 模型(V3,r1)的競爭力提升至與 OpenAI、Anthropic、Gemini、Grok、Llama 等相當,成本約為它們的1/20。(這個成本比例是相對於其宣稱的低成本而言,實際上 DeepSeek 的成本遠高於此)
- 訓練成本並不完全可比,但方法新穎且效率明顯提高(也有關於是否抄襲其他模型、是否使用更大 H-100 叢集的疑問,可能還有中共政府的支持)。
- 開放源始碼並發表研究方法(r1 推理論文有200多位作者)。
- 這是2024年5月12日的資訊,當時注意到 DeepSeek v2 的表現令人驚嘆。
- DeepSeek 剛剛登上 App Store 排行榜的頂端。
- High-Flyer 量化對沖基金目前管理資產規模達80億美元。
十、總結:美中國運之戰,AI 將是戰場
DeepSeek 的成功,到底是曇花一現抑或陸續有來,還很難說。但有一點可以肯定:這是一場國運之戰,而 AI 將是戰場。DeepSeek 的崛起,不僅是對 OpenAI 的挑戰,更是對整個 AI 產業格局的衝擊。其背後的巨額算力投入和技術積累,也揭示了中國在 AI 領域的雄心和實力。未來,我們將見證更多技術突破和模式創新,而中美兩國在 AI 領域的競爭也將更加激烈。
推薦閱讀: