东京热亚洲中文一区,成人欧美精品久久久久影院

OpenAI發(fā)布GPT-4.1，性能暴漲、100萬上下文

時(shí)間：2025-04-15 21:09 來源：ITBEAR 責(zé)任編輯：毛青青

　　原標(biāo)題：OpenAI發(fā)布GPT-4.1，性能暴漲、100萬上下文

　　今天凌晨1點(diǎn)，OpenAI進(jìn)行了技術(shù)直播發(fā)布了最新模型——GPT-4.1。

　　除了GPT-4.1之外，還有GPT 4.1-Mini和GPT 4.1-Nano兩款模型，在多模態(tài)處理、代碼能力、指令遵循、成本方面實(shí)現(xiàn)大幅度提升。特別是支持100萬token上下文，這對(duì)于金融分析、小說寫作、教育等領(lǐng)域幫助巨大。

　　由于GPT-4.1的發(fā)布，OpenAI宣布將會(huì)淘汰剛發(fā)布不久的GPT-4.5，其能力可見一斑。

　　目前，如果想體驗(yàn)GPT-4.1而無法通過API身份驗(yàn)證的小伙伴，微軟已經(jīng)在Azure OpenAI上線了該模型，可以使用了。

　　GPT-4.1簡(jiǎn)單介紹

　　GPT-4.1最大亮點(diǎn)之一就是支持100萬tokens上下文，這也是OpenAI首次發(fā)布長窗口模型。

　　與前代模型相比，GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能夠處理多達(dá)100萬tokens的上下文，是GPT-4o的8倍。

　　OpenAI在Long Context Evals上對(duì)長文本進(jìn)行了測(cè)試，測(cè)試結(jié)果顯示，GPT-4.1系列的三個(gè)模型均能夠在語料庫的任何深度找到目標(biāo)文本，無論是開頭、中間還是結(jié)尾，甚至在長達(dá)100萬tokens的上下文中，模型依然能夠準(zhǔn)確地定位目標(biāo)文本。

　　OpenAI還在Multi-Round Coreference進(jìn)行了測(cè)試，通過創(chuàng)建合成對(duì)話來測(cè)試模型在長上下文中的理解和推理能力。在這些對(duì)話中，用戶和助手交替進(jìn)行對(duì)話，用戶可能會(huì)要求模型生成一首關(guān)于某個(gè)主題的詩，接著要求生成另一首關(guān)于不同主題的詩，然后可能要求生成一個(gè)關(guān)于第三個(gè)主題的短故事。模型需要在這些復(fù)雜的對(duì)話中找到特定的內(nèi)容，例如“第二篇關(guān)于某個(gè)主題的短故事”。

　　測(cè)試結(jié)果顯示，GPT-4.1在處理長達(dá)128K tokens的數(shù)據(jù)時(shí)顯著優(yōu)于GPT-4o，并且在長達(dá)100萬tokens的上下文中依然能夠保持較高的性能。

　　在編碼能力測(cè)試中，SWEBench評(píng)估將模型置于 Python 代碼庫環(huán)境，讓其探索代碼庫、編寫代碼和測(cè)試用例。結(jié)果顯示，GPT-4.1 的準(zhǔn)確率達(dá)到 55% ，而 GPT-4o僅為 33%。

　　在多語言編碼能力測(cè)試方面，Ader polyglot 基準(zhǔn)測(cè)試涵蓋多種編程語言和不同格式要求。GPT-4.1 在差異性能上較 GPT-4o提升一倍，在處理多語言編程任務(wù)、代碼優(yōu)化和版本管理時(shí)更高效。

　　在指令遵循能力測(cè)試中，OpenAI 構(gòu)建內(nèi)部評(píng)估體系，模擬 API 開發(fā)者使用場(chǎng)景，測(cè)試模型對(duì)復(fù)雜指令的遵循能力。每個(gè)樣本包含分屬不同類別的復(fù)雜指令，并分難度等級(jí)。在困難子集評(píng)估中，GPT-4.1 遠(yuǎn)超 GPT-4o。

　　在多模態(tài)處理測(cè)試的視頻 MME 基準(zhǔn)測(cè)試中，GPT 4.1 對(duì)30 - 60 分鐘無字幕視頻進(jìn)行理解并回答多項(xiàng)選擇題，取得72%的成績，達(dá)到當(dāng)前最佳水平，在視頻內(nèi)容理解上實(shí)現(xiàn)重大突破。

　　價(jià)格方面，GPT -4.1系列在性能提升的同時(shí)，價(jià)格更具競(jìng)爭(zhēng)力。GPT -4.1 相比 GPT-4o 價(jià)格降低 26%，而GPT -4.1 Nano 作為最小、最快且最便宜的模型，每百萬 token 的成本僅為12美分。

　　實(shí)際應(yīng)用GPT-4.1案例

　　湯森路透是全球領(lǐng)先的金融和法律信息提供商，其專業(yè)級(jí)AI助手CoCounsel被廣泛應(yīng)用于法律工作。

　　CoCounsel的主要任務(wù)是幫助法律專業(yè)人士處理復(fù)雜的法律文件和工作流程。在測(cè)試GPT-4.1時(shí)，路透社發(fā)現(xiàn)該模型在多文檔審查方面表現(xiàn)出色，尤其是在處理涉及多個(gè)長文檔的復(fù)雜法律工作流程時(shí)。

　　與GPT-4o相比，GPT-4.1在內(nèi)部長上下文基準(zhǔn)測(cè)試中的多文檔審查準(zhǔn)確性提高了17%。這一提升對(duì)于法律專業(yè)人士來說至關(guān)重要，因?yàn)樗苯雨P(guān)系到CoCounsel處理復(fù)雜法律工作流程的能力。

　　法律文件通常包含多個(gè)長文檔，這些文檔之間可能存在復(fù)雜的相互關(guān)系，例如沖突條款或補(bǔ)充上下文。GPT-4.1在這些方面表現(xiàn)出了極高的可靠性，能夠準(zhǔn)確識(shí)別文檔之間的細(xì)微關(guān)系，這對(duì)于法律分析和決策至關(guān)重要。

　　而在處理多個(gè)法律文件時(shí)，GPT-4.1能夠有效地維護(hù)跨文檔的上下文信息，并準(zhǔn)確識(shí)別出文檔之間的沖突條款或補(bǔ)充信息。這

　　Carlyle是一家全球領(lǐng)先的私募股權(quán)投資公司，其業(yè)務(wù)涉及大量的金融數(shù)據(jù)分析和文檔處理。Carlyle使用GPT-4.1來從多個(gè)長文檔中準(zhǔn)確提取顆�；慕鹑跀�(shù)據(jù)，這些文檔包括PDF文件、Excel表格和其他復(fù)雜格式。

　　Carlyle的內(nèi)部評(píng)估顯示，GPT-4.1在從大型文檔中檢索數(shù)據(jù)方面的表現(xiàn)比其他可用模型高出50%。

　　GPT-4.1在處理非常大的文檔時(shí)表現(xiàn)出色，尤其是在密集數(shù)據(jù)的檢索方面。該模型成功克服了其他模型的關(guān)鍵限制，包括檢索問題、中間位置丟失信息的錯(cuò)誤以及跨文檔的多跳推理。

　　這些能力使得GPT-4.1能夠更高效地從復(fù)雜的金融文檔中提取關(guān)鍵信息，為Carlyle的分析師提供了更準(zhǔn)確、更全面的數(shù)據(jù)支持。

　　Windsurf是一家專注于提供高效開發(fā)工具的公司，其內(nèi)部編碼基準(zhǔn)測(cè)試為評(píng)估AI模型在實(shí)際開發(fā)中的表現(xiàn)提供了一個(gè)重要的參考。在對(duì)GPT-4.1進(jìn)行測(cè)試時(shí)，Windsurf發(fā)現(xiàn)該模型在編碼任務(wù)中的表現(xiàn)比前代GPT-4o有了顯著提升：GPT-4.1在Windsurf的內(nèi)部編碼基準(zhǔn)測(cè)試中得分比GPT-4o高出60%。

　　Windsurf的用戶反饋顯示，GPT-4.1在工具調(diào)用方面比GPT-4o更高效，效率提升了30%。GPT-4.1在編碼過程中重復(fù)進(jìn)行不必要的編輯或過度細(xì)化的步驟的可能性比GPT-4o降低了約50%。

投稿郵箱：chuanbeiol@163.com 詳情請(qǐng)?jiān)L問川北在線：http://m.fishbao.com.cn/

>>相關(guān)文章

OpenAI將放大招 GPT-5免費(fèi)無限使用：預(yù)計(jì)幾個(gè)月內(nèi)推出

微信安全中心發(fā)布公告，提醒用戶警惕木馬病毒

元?dú)馍峙c遠(yuǎn)景科技集團(tuán)達(dá)成全面戰(zhàn)略合作發(fā)布首款零碳?xì)馀菟?/a>

菜鳥發(fā)布多款科技新品，涉及數(shù)字供應(yīng)鏈與自動(dòng)化

華為鴻蒙OS 3.0正式發(fā)布用戶數(shù)量已破3億

IDC發(fā)布中國Web應(yīng)用防火墻（硬件）市場(chǎng)排名 | 綠盟科技WAF三連冠

阿里云發(fā)布CIPU處理器中國云廠商正在逐漸取得云計(jì)算核心話語權(quán)

騰訊極光投影P2新品發(fā)布硬核實(shí)力不容錯(cuò)過

vivo S12系列新品發(fā)布時(shí)尚靚麗顏值高年輕人的最愛

川北在線-川北全搜索版權(quán)與免責(zé)聲明

①凡注明"來源：XXX(非在線)"的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。
②本站所載之信息僅為網(wǎng)民提供參考之用，不構(gòu)成任何投資建議，文章觀點(diǎn)不代表本站立場(chǎng)，其真實(shí)性由作者或稿源方負(fù)責(zé)，本站信息接受廣大網(wǎng)民的監(jiān)督、投訴、批評(píng)。
③本站轉(zhuǎn)載純粹出于為網(wǎng)民傳遞更多信息之目的，本站不原創(chuàng)、不存儲(chǔ)視頻，所有視頻均分享自其他視頻分享網(wǎng)站，如涉及到您的版權(quán)問題，請(qǐng)與本網(wǎng)聯(lián)系，我站將及時(shí)進(jìn)行刪除處理。

娛樂百科

更多>>