原標(biāo)題:OpenAI發(fā)布GPT-4.1,性能暴漲、100萬上下文
今天凌晨1點(diǎn),OpenAI進(jìn)行了技術(shù)直播發(fā)布了最新模型——GPT-4.1。
除了GPT-4.1之外,還有GPT 4.1-Mini和GPT 4.1-Nano兩款模型,在多模態(tài)處理、代碼能力、指令遵循、成本方面實(shí)現(xiàn)大幅度提升。特別是支持100萬token上下文,這對于金融分析、小說寫作、教育等領(lǐng)域幫助巨大。
由于GPT-4.1的發(fā)布,OpenAI宣布將會淘汰剛發(fā)布不久的GPT-4.5,其能力可見一斑。
目前,如果想體驗(yàn)GPT-4.1而無法通過API身份驗(yàn)證的小伙伴,微軟已經(jīng)在Azure OpenAI上線了該模型,可以使用了。
GPT-4.1簡單介紹
GPT-4.1最大亮點(diǎn)之一就是支持100萬tokens上下文,這也是OpenAI首次發(fā)布長窗口模型。
與前代模型相比,GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能夠處理多達(dá)100萬tokens的上下文,是GPT-4o的8倍。
OpenAI在Long Context Evals上對長文本進(jìn)行了測試,測試結(jié)果顯示,GPT-4.1系列的三個模型均能夠在語料庫的任何深度找到目標(biāo)文本,無論是開頭、中間還是結(jié)尾,甚至在長達(dá)100萬tokens的上下文中,模型依然能夠準(zhǔn)確地定位目標(biāo)文本。
OpenAI還在Multi-Round Coreference進(jìn)行了測試,通過創(chuàng)建合成對話來測試模型在長上下文中的理解和推理能力。在這些對話中,用戶和助手交替進(jìn)行對話,用戶可能會要求模型生成一首關(guān)于某個主題的詩,接著要求生成另一首關(guān)于不同主題的詩,然后可能要求生成一個關(guān)于第三個主題的短故事。模型需要在這些復(fù)雜的對話中找到特定的內(nèi)容,例如“第二篇關(guān)于某個主題的短故事”。
測試結(jié)果顯示,GPT-4.1在處理長達(dá)128K tokens的數(shù)據(jù)時顯著優(yōu)于GPT-4o,并且在長達(dá)100萬tokens的上下文中依然能夠保持較高的性能。
在編碼能力測試中,SWEBench評估將模型置于 Python 代碼庫環(huán)境,讓其探索代碼庫、編寫代碼和測試用例。結(jié)果顯示,GPT-4.1 的準(zhǔn)確率達(dá)到 55% ,而 GPT-4o僅為 33%。
在多語言編碼能力測試方面,Ader polyglot 基準(zhǔn)測試涵蓋多種編程語言和不同格式要求。GPT-4.1 在差異性能上較 GPT-4o提升一倍,在處理多語言編程任務(wù)、代碼優(yōu)化和版本管理時更高效。
在指令遵循能力測試中,OpenAI 構(gòu)建內(nèi)部評估體系,模擬 API 開發(fā)者使用場景,測試模型對復(fù)雜指令的遵循能力。每個樣本包含分屬不同類別的復(fù)雜指令,并分難度等級。在困難子集評估中,GPT-4.1 遠(yuǎn)超 GPT-4o。
在多模態(tài)處理測試的視頻 MME 基準(zhǔn)測試中,GPT 4.1 對30 - 60 分鐘無字幕視頻進(jìn)行理解并回答多項(xiàng)選擇題,取得72%的成績,達(dá)到當(dāng)前最佳水平,在視頻內(nèi)容理解上實(shí)現(xiàn)重大突破。
價格方面,GPT -4.1系列在性能提升的同時,價格更具競爭力。GPT -4.1 相比 GPT-4o 價格降低 26%,而GPT -4.1 Nano 作為最小、最快且最便宜的模型,每百萬 token 的成本僅為12美分。
實(shí)際應(yīng)用GPT-4.1案例
湯森路透是全球領(lǐng)先的金融和法律信息提供商,其專業(yè)級AI助手CoCounsel被廣泛應(yīng)用于法律工作。
CoCounsel的主要任務(wù)是幫助法律專業(yè)人士處理復(fù)雜的法律文件和工作流程。在測試GPT-4.1時,路透社發(fā)現(xiàn)該模型在多文檔審查方面表現(xiàn)出色,尤其是在處理涉及多個長文檔的復(fù)雜法律工作流程時。
與GPT-4o相比,GPT-4.1在內(nèi)部長上下文基準(zhǔn)測試中的多文檔審查準(zhǔn)確性提高了17%。這一提升對于法律專業(yè)人士來說至關(guān)重要,因?yàn)樗苯雨P(guān)系到CoCounsel處理復(fù)雜法律工作流程的能力。
法律文件通常包含多個長文檔,這些文檔之間可能存在復(fù)雜的相互關(guān)系,例如沖突條款或補(bǔ)充上下文。GPT-4.1在這些方面表現(xiàn)出了極高的可靠性,能夠準(zhǔn)確識別文檔之間的細(xì)微關(guān)系,這對于法律分析和決策至關(guān)重要。
而在處理多個法律文件時,GPT-4.1能夠有效地維護(hù)跨文檔的上下文信息,并準(zhǔn)確識別出文檔之間的沖突條款或補(bǔ)充信息。這
Carlyle是一家全球領(lǐng)先的私募股權(quán)投資公司,其業(yè)務(wù)涉及大量的金融數(shù)據(jù)分析和文檔處理。Carlyle使用GPT-4.1來從多個長文檔中準(zhǔn)確提取顆;慕鹑跀(shù)據(jù),這些文檔包括PDF文件、Excel表格和其他復(fù)雜格式。
Carlyle的內(nèi)部評估顯示,GPT-4.1在從大型文檔中檢索數(shù)據(jù)方面的表現(xiàn)比其他可用模型高出50%。
GPT-4.1在處理非常大的文檔時表現(xiàn)出色,尤其是在密集數(shù)據(jù)的檢索方面。該模型成功克服了其他模型的關(guān)鍵限制,包括檢索問題、中間位置丟失信息的錯誤以及跨文檔的多跳推理。
這些能力使得GPT-4.1能夠更高效地從復(fù)雜的金融文檔中提取關(guān)鍵信息,為Carlyle的分析師提供了更準(zhǔn)確、更全面的數(shù)據(jù)支持。
Windsurf是一家專注于提供高效開發(fā)工具的公司,其內(nèi)部編碼基準(zhǔn)測試為評估AI模型在實(shí)際開發(fā)中的表現(xiàn)提供了一個重要的參考。在對GPT-4.1進(jìn)行測試時,Windsurf發(fā)現(xiàn)該模型在編碼任務(wù)中的表現(xiàn)比前代GPT-4o有了顯著提升:GPT-4.1在Windsurf的內(nèi)部編碼基準(zhǔn)測試中得分比GPT-4o高出60%。
Windsurf的用戶反饋顯示,GPT-4.1在工具調(diào)用方面比GPT-4o更高效,效率提升了30%。GPT-4.1在編碼過程中重復(fù)進(jìn)行不必要的編輯或過度細(xì)化的步驟的可能性比GPT-4o降低了約50%。
投稿郵箱:chuanbeiol@163.com 詳情請?jiān)L問川北在線:http://m.fishbao.com.cn/