應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

商湯發(fā)布日日新 5.0 大模型:推理上下文窗口 200K,號稱對標 GPT-4 Turbo

2024-04-25 08:54 IT之家
關鍵詞:商湯大模型

導讀:商湯科技發(fā)布了日日新 5.0 大模型。據(jù)介紹,該模型采用 MOE 混合專家架構,在知識、數(shù)學、推理和代碼能力方面大幅提升。

  4 月 23 日,商湯科技發(fā)布了日日新 5.0 大模型。據(jù)介紹,該模型采用 MOE 混合專家架構,在知識、數(shù)學、推理和代碼能力方面大幅提升。

image.png

  該模型基于超過 10TB tokens 訓練,具備 200K 推理上下文窗口(IT之家注:相當于 36.5 萬個漢字),推理時上下文窗口達到 200K 左右,更號稱“全面對標 GPT-4 Turbo”。其提供自然語言處理、圖片生成、自動化數(shù)據(jù)標注、自定義模型訓練等多種大模型及能力。

  文科能力方面,其在創(chuàng)意寫作、推理總結等方面能力均有提升,可為教育、內容產(chǎn)業(yè)等垂直應用場景提供輔助;理科能力方面,其數(shù)理、代碼及推理等方面能力也進行了增強,官方表示可為金融、數(shù)據(jù)分析等場景落地提供基礎。

image.png

  目前,日日新 5.0 大模型已經(jīng)正式面向全網(wǎng)用戶開放。

  商湯方面表示,在小米汽車 SU7 的智能座艙內也應用了商湯大模型技術,小愛同學采用了基于商湯端云大模型的解決方案,可為車主提供智能化交互體驗。