上海AI企業發佈首個混合架構開源模型

低成本推理與超長文字理解的創新之門,近日被我國一家AI企業敲開。6月17日淩晨,總部位於上海的AI獨角獸企業MiniMax(上海稀宇科技有限公司),發佈了自主研發的“全球首個開源的大規模混合架構推理模型”MiniMax-M1(以下簡稱“M1”)。

  ◎本報記者李均

  低成本推理與超長文字理解的創新之門,近日被我國一家AI企業敲開。

  6月17日淩晨,總部位於上海的AI獨角獸企業MiniMax(上海稀宇科技有限公司),發佈了自主研發的“全球首個開源的大規模混合架構推理模型”MiniMax-M1(以下簡稱“M1”)。M1支持100萬token(語言中具有獨立意義的最小組織)上下文視窗,訓練成本僅為53.74萬美元,約合380萬元人民幣,其長文字處理、程式碼生成等覈心效能填補了開源領域長上下文科技的空白,展現出比肩甚至超越業界頂尖模型的實力。

  開源“新王”:較低成本訓練出頂尖模型

  記者登入MiniMax自有的App和Web端看到,M1模型保持不限量免費使用。“M1如同用經濟型轎車的成本造出了豪華超跑”“M1是我們眼中的性價比‘新王’”……互聯網上,一些AI行業觀察者給出這樣的評估。

  作為國內“AI六小虎”之一的MiniMax,此次發佈的M1大模型何以擁有巨大的成本優勢?資深人工智慧專家、高級工程師丁成剛認為,這主要源於企業的兩大技術創新。一是採用閃電注意力機制為主的混合架構,使得模型在計算長上下文輸入以及深度推理時更加高效;二是運用CISPO强化學習算灋,優化重要性採樣權重,訓練效率超越其他大模型。得益於CISPO的高效,M1模型的整個强化學習階段僅使用了512塊英偉達H800GPU,耗時3周,成本僅為53.74萬美元。這一成本顯著低於企業最初的預期。

  在進行8萬token的深度推理時,M1所需的算力僅為國內另一款大模型的約30%;生成10萬token時,推理算力只需要另一款大模型的25%。當較低成本訓練出頂尖模型,實現“效能躍升、成本腰斬”的雙重突破,用戶再也不用擔心百萬token上下文成為高昂服務,這將為市場提供了一個高性能、低門檻的新選擇。可以預見,M1或將會成為智慧體時代的首選開源基座模型。

  科技“大考”:架構創新實現效能超越

  行業觀察人士認為,面對多個覈心生產力場景,M1於同類模型中率先實現了科技突破與架構創新,它的核心競爭力在於將線性注意力與標準Softmax注意力有機融合,形成獨特的“閃電注意力”機制。這一設計讓M1在保持長序列處理效率的同時,解决了純線性注意力在資訊檢索上的固有缺陷。

  記者瞭解到,MiniMax在業內公認的17個主流評測集上對M1進行了科技“檢閱”。結果顯示,在軟體工程、長上下文理解以及工具使用等複雜且對生產力要求較高的場景中,M1展現出絕對實力。在SWE-bench基準測試裏,M1-40k和M1-80k分別取得55.6%和56.0%的高分。憑藉其百萬級的上下文視窗,M1在長上下文理解任務中具有壓倒性優勢,不僅超越所有開源模型,還在部分名額上接近OpenAIo3和Claude4Opus,在全球範圍內位居第二。

  在代理工具使用場景TAU-bench的評測中,M1不僅在所有開源模型中脫穎而出,還戰勝了Gemini-2.5Pro。此外,M1-80k在多數基準測試中的表現都優於M1-40k,表明新增計算資源對提升模型效能有顯著作用。在處理400頁技術文檔或10萬行代碼庫時,傳統模型需反復切分上下文,而M1可以做到整體消化、連貫推理,為智慧體發展提供了開創性範例。

  “M1打破了‘算力+資本’的競爭模式,將對全球AI大模型市場產生深遠影響。不過,對於更多AI領域企業來說,要從科技流派轉向市場應用,以解决問題、實現任務為出發點,開拓醫療、健康、旅遊、傳媒等領域垂直類應用場景,才能在AI的規模化應用方面擁有更多想像空間和發展機遇。”資深創投專家、江蘇投資人中心秘書長吳峰認為。

本文標題: 上海AI企業發佈首個混合架構開源模型
永久網址: https://www.laoziliao.net/doc/1750673533134638
相关資料
我國重繪平頂脈衝磁場世界紀錄
科技日報武漢6月22日電(記者吳純新通訊員高翔)記者22日從華中科技大學獲悉,該校國家脈衝强磁場科學中心李亮教授團隊近日成功實現71.36特斯拉平頂脈衝磁場,進一步鞏固我國在該領域的國際領先地位。此前,該團隊於2018年創下64特斯拉世界紀
標籤:
塑膠瓶竟“變身”為鎮痛良藥
全球每年生產數億噸塑膠,其中很多最終變成了污染環境的“毒瘤”。現在,實驗室裏終於上演了一場“變身記”:一個隨手扔掉的塑膠瓶,竟變成緩解疼痛的良藥。
標籤:
人工智慧正悄然改變時尚創意
那麼創意的自由是否還存在?算灋究竟激發了創新,還是加劇了創意的同質化?
標籤:
基於酶工作原理,新算灋設計出高效合成酶
科技日報北京6月23日電(記者劉霞)以色列魏茨曼科學研究院科學家在新一期《自然》雜誌發表文章稱:他們利用基於酶工作原理的電腦新算灋設計出高效人工合成酶。這種新型酶不僅能催化天然蛋白質無法完成的化學反應,其效率更達到人工智慧(AI)設計酶的1
標籤: