“微軟公布Phi-3家族小型語言模型,以創新訓練方法提高效能”
微軟宣佈推出小型語言模型(SLM)Phi-3系列,該系列被公認為該規模下最優秀且最具成本效益的模型。微軟研究人員開發的創新訓練方法使Phi-3模型在語言、編碼和數學基準上超越較大的模型。
微軟生成式AI的首席產品經理Sonali Yadav表示:“我們將開始看到的不是從大模型轉向小模型,而是從單一模型類型轉向一個模型組合,使客戶可以根據自己的場景來選擇最好的模型。”。
首款Phi-3模型Phi-3-mini擁有38億的參數,現已在Azure AI模型目錄,Hugging Face,Ollama及NVIDIA NIM微服務中公開提供。儘管大小緊湊,Phi-3-mini的性能卻超越了規模兩倍的模型。很快就會有更多Phi-3模型推出,如Phi-3-small(70億參數)和Phi-3-medium(140億參數)。
“一些客戶可能只需要小模型,一些則需要大型模型,很多人將想以各種方式結合兩者,”微軟AI副總裁Luis Vargas說。
SLMs的主要優勢是其體積較小,可在無網路連接條件下,實現低延遲的AI裝置部署。潛在的應用場景包括智能傳感器、攝像頭、農業設備等。保護隱私是另一個優點,因為可以在裝置上保存數據。
大型語言模型(LLMs)擅長理解龐大數據集的複雜原理,這可以應用於藥物發現等相關領域的應用,例如理解科學文獻中的各種互動。然而,對於簡單的問答、撮要、內容生成等,SLMs提供了一個引人入勝的選擇。
艾瑞思公司的技術總監兼聯合創始人Victor Botev評價道:“相比於追趕愈來愈大的模型,微軟正在開發利用更精確策展的數據和專業化培訓的工具。這允許我們在不用支付龐大計算成本的狀況下,提高性能和推理能力。如果能實現這一目標,那將會為尋找AI解決方案的企業消除龐大的采納障礙。”
微軟的SLM質量飛躍的關鍵是一種靈感來自臨睡故事書的創新的資料過濾和生成方法。
“為什麼不尋找超高質量的數據,而不僅僅是訓練原始網路數據呢?”微軟負責SLM研究的副總裁Sebastien Bubeck問。
微軟團隊在此基礎上進一步取得成功,他們獲得了網路上有教育價值的高質量數據,以創建’CodeTextbook’數據集。該數據集是通過人工和大型AI模型的提示、生成和過濾多輪合成的。
Bubeck說:“我們將很多心血投入這些合成資料的產生中,並不接受我們產生的所有成果。”
“這款高質量的訓練數據產生了變革性的影響。因為它正在閱讀像教科書一樣的材料……你讓語言模型閱讀並理解這些教材變得更容易,”Bubeck解釋道。
儘管已周詳考慮數據策劃,微軟強調根據其所有生成型AI模型的標準流程,對Phi-3的發布實行額外的安全實踐。
“與所有生成AI模型的發布一樣,微軟的產品和負責任的AI團隊對Phi-3模型的開發過程中的風險採取了多層管理和減輕風險的方法,”一篇博文中寫道。
這包括進一步的訓練實例來強化預期行為,透過紅隊評估來識別弱點,並為客戶提供建立在Phi-3之上的可靠應用程序的Azure AI工具。
看看這邊:微軟將與南韓科技領導者建立AI合作關係
想從行業領導者那裡了解更多關於AI和大數據的知識嗎?在阿姆斯特丹、加利福尼亞和倫敦參加AI&Big Data Expo。該綜合性活動與其他領先的活動並列舉行,包括BlockX、Digital Transformation Week和Cyber Security&Cloud Expo。
The post 微軟發布Phi-3家族小型語言模型首次出現在 AI新聞。
微軟宣布推出更具效能且成本效益高的小型語言模型(SLMs)Phi-3系列。這種創新的訓練方法是由微軟研究人員發展的,使得Phi-3的模型在語言、程式編碼和數學基準測試上超越了規模更大的一些模型。
微軟擬態AI產品主管 Sonali Yadav 表示:“我們將開始看到的不僅僅是從大型到小型的轉變,更是從單一類別的模型到多種模型的轉換,這樣客戶就能根據自己的需求場景來決定最適合他們的模型。”
首款Phi-3的模型,Phi-3-mini(含38億個參數)目前已在Azure AI Model Catalog、Hugging Face、Ollama以及NVIDIA NIM微服務中開放供公眾使用。儘管規模較小,但Phi-3-mini的表現卻超越了規模兩倍的模型。另外兩款如Phi-3-small(70億參數)和Phi-3-medium(140億參數)的模型將很快推出。
微軟AI副總裁Luis Vargas提到,“一些客戶可能只需要小型模型,有些將需要大型模型,而許多人則希望以各種方式結合兩者的使用。”
SLMs的關鍵優勢在於其較小的規模使其能在設備上部署,以實現低延遲的AI體驗,無需網路連接。可能的應用範疇包括智能感應器,攝像頭,農業裝備等。另外,透過在設備上保留資料,也能更好的維護隱私。
大型語言模型(LLMs)擅長處理處理大數據集,由此衍生的能力,使其適合透過理解科學文獻中的互動關係來進行藥物發現等應用。然而,對於簡單的查詢回答、摘要、內容生成等需求,SLMs則是個有吸引力的選擇。
<Iris.ai的CTO兼共同創始人Victor Botev認為,“微軟正在開發的工具並非追求視規模更大的模型,而是整合更精心策劃的資料和專門的訓練,這能提升模型的性能和推理能力,而無需承擔數萬億參數模型的龐大計算成本。實現這一承諾能為商業尋找AI解決方案的大規模接納壁壘。 使微軟的SLM在質量上取得突破的,是一種以睡前故事書為靈感的創新數據篩選和生成方式。 微軟SLM研究副總裁Sebastien Bubeck詢問,“不只在原始網路資訊上進行訓練,為什麼不尋找質量極高的資訊呢?” Ronen Eldan和女兒的夜間閱讀例行公事激發了創建“TinyStories”數據集的討法,使用由大型模型推導出的四歲幼童所知詞彙的組合,製作出數百萬簡單的故事劇本。令人驚訝的是,一個使用TinyStories進行訓練的1000萬參數模型能夠產生語法完整的流暢故事。 作為早期成功的一部分,團隊收集網路上經專家審核的高質量教育資訊來建立“CodeTextbook”資料集。這些資料經過一輪輪的人工和AI模型的提示、生成和篩選來製作。 Bubeck說,“製作這些合成數據需要投入很多心血,我們不會接受所有產出的資料。” 優質的訓練數據產生了革命性的變化。“因為從教科書類資訊中讀取,讓語言模型讀取並理解這些內容變得更容易,” Bubeck解釋道。 微軟說明,儘管在數據篩選上十分小心,他們在還更進一步強調,對於Phi-3的釋出應用了更多的安全措施,以與其所有的AI模型全部流程鏡像對照的方式。 “像所有生成AI模型的釋出一樣,微軟的產品和負責AI團隊運用了多層面的方式來管理和紓解在開發Phi-3模型中的風險。”該部落格文章這麼寫道。 這也包括進一步的訓練範例來強化期望行為,評價找出脆弱點的紅隊,並提供Azure AI工具讓客戶能在Phi-3上建立可信賴的應用程序。 相關文章: 南韓科技領袖將與微軟合作推進AI的發展
想更深入了解由業界領導者帶來的AI和大數據嗎?來參加在阿姆斯特丹、加利福尼亞和倫敦舉行的AI & Big Data Expo。此大型活動與其他重要的活動共同舉辦,包括BlockX、Digital Transformation Week和Cyber Security & Cloud Expo。
探索由TechForge公司推动的其他即將舉行的企業技術活動和網路研討會請點此進入。
文章連結:微軟推出Phi-3系列精簡語言模型來自AI新聞。
Microsoft unveils Phi-3 family of compact language models
(引文來源:完整新聞連結)