142頁長文揭秘DeepSeek-R1「思維大腦」,開啟全新「思維鏈學」研究
來源:本站原創 瀏覽:107次 時間:2025-04-22
你是否曾想過DeepSeek-R1為什么能「思考」?
距離DeepSeek-R1這只「巨鯨」引發的全球AI海嘯似乎剛剛平靜下來,但推理模型已經成為了AI寵兒。
不論是Gemini 2.5Pro,還是o3,o4-mini,以及所有人都在期待的DeepSeek-R2,都是推理模型。
R1的出現帶火了推理模型外,也催生了一個新的研究領域:思維鏈學(Thoughtology)。
魁北克人工智能研究所聯合麥吉爾大學和哥本哈根大學最近發布了這一研究領域的詳細研究,這份長達142頁的報告深入探討了R1的思維鏈。
同時這份研究報告也登上了HuggingFace的Daily Papers。
論文地址:https://arxiv.org/pdf/2504.07128
研究團隊從DeepSeek-R1推理的基本構件出發,分析其推理鏈的長度對性能的影響、對長或混亂上下文的處理能力、安全性和文化問題、以及它在人類類比語言處理和世界建模中的表現。
研究報告涵蓋了多個獨特的維度:安全性、世界建模、忠誠度、長情境等。
研究結果發現幾個關鍵亮點:
DeepSeek-R1存在一個「推理甜點區」(sweet spot),即過多推理反而損害性能。
模型傾向于反復沉溺在已探索的方案中,阻礙進一步探索。
相比不具備推理能力的版本,DeepSeek-R1展現出更高的安全風險,這可能對安全對齊的LLM構成挑戰。
還有更豐富的研究細節,讓我們開始吧。
DeepSeek-R1「思維鏈學」(Thoughtology)
一個人所取得的成就,或未能達成的目標,都是其思想的直接結果。
——James Allen,《As a Man Thinketh》
模型的推理能力正在發生一種質變——推理不再僅靠提示引導,而是內嵌在模型本身中。
類似DeepSeek-R1這樣的「大推理模型」(Large Reasoning Models, LRM)標志著LLMs處理復雜問題方式的根本轉變。
DeepSeek-R1首次公開推理過程,但是最受傷的是OpenAI。
OpenAI的o1(2024)是首個展示LRM巨大潛力的模型,但OpenAI并未公開其推理過程。
所以R1一亮相就驚艷了世人,把o1拍死在沙灘上,也讓AI的競爭之路選擇了開源。
另外一個讓R1備受尊崇的原因就是成本,R1模型不僅在性能上可以與o1媲美,而且計算效率更高,成本更低,相信你還記得550萬美元,只有o1的3%等數據。
而DeepSeek-R1最讓人興奮的原因依然還是開源:不僅訓練過程、代碼和模型權重對外公開;而且「思維過程」也面向所有人開放。
研究團隊稱「DeepSeek-R1思維鏈的透明訪問權」是一種獨特的研究機會!
研究人員借此可以系統性地分析其推理行為,最終形成「思維鏈學」(Thoughtology)。圖1.1展示了普通LLM和LRM輸出之間的對比。
距離DeepSeek-R1這只「巨鯨」引發的全球AI海嘯似乎剛剛平靜下來,但推理模型已經成為了AI寵兒。
不論是Gemini 2.5Pro,還是o3,o4-mini,以及所有人都在期待的DeepSeek-R2,都是推理模型。
R1的出現帶火了推理模型外,也催生了一個新的研究領域:思維鏈學(Thoughtology)。
魁北克人工智能研究所聯合麥吉爾大學和哥本哈根大學最近發布了這一研究領域的詳細研究,這份長達142頁的報告深入探討了R1的思維鏈。
同時這份研究報告也登上了HuggingFace的Daily Papers。
論文地址:https://arxiv.org/pdf/2504.07128
研究團隊從DeepSeek-R1推理的基本構件出發,分析其推理鏈的長度對性能的影響、對長或混亂上下文的處理能力、安全性和文化問題、以及它在人類類比語言處理和世界建模中的表現。
研究報告涵蓋了多個獨特的維度:安全性、世界建模、忠誠度、長情境等。
研究結果發現幾個關鍵亮點:
DeepSeek-R1存在一個「推理甜點區」(sweet spot),即過多推理反而損害性能。
模型傾向于反復沉溺在已探索的方案中,阻礙進一步探索。
相比不具備推理能力的版本,DeepSeek-R1展現出更高的安全風險,這可能對安全對齊的LLM構成挑戰。
還有更豐富的研究細節,讓我們開始吧。
DeepSeek-R1「思維鏈學」(Thoughtology)
一個人所取得的成就,或未能達成的目標,都是其思想的直接結果。
——James Allen,《As a Man Thinketh》
模型的推理能力正在發生一種質變——推理不再僅靠提示引導,而是內嵌在模型本身中。
類似DeepSeek-R1這樣的「大推理模型」(Large Reasoning Models, LRM)標志著LLMs處理復雜問題方式的根本轉變。
DeepSeek-R1首次公開推理過程,但是最受傷的是OpenAI。
OpenAI的o1(2024)是首個展示LRM巨大潛力的模型,但OpenAI并未公開其推理過程。
所以R1一亮相就驚艷了世人,把o1拍死在沙灘上,也讓AI的競爭之路選擇了開源。
另外一個讓R1備受尊崇的原因就是成本,R1模型不僅在性能上可以與o1媲美,而且計算效率更高,成本更低,相信你還記得550萬美元,只有o1的3%等數據。
而DeepSeek-R1最讓人興奮的原因依然還是開源:不僅訓練過程、代碼和模型權重對外公開;而且「思維過程」也面向所有人開放。
研究團隊稱「DeepSeek-R1思維鏈的透明訪問權」是一種獨特的研究機會!
研究人員借此可以系統性地分析其推理行為,最終形成「思維鏈學」(Thoughtology)。圖1.1展示了普通LLM和LRM輸出之間的對比。
- 上一篇: 電商“僅退款”將全面取消,退款不退貨交由商家處理
- 下一篇: 互聯網平臺現狀:鼓勵AI,限制AI