微軟團隊在辦公領域有著很強的“AI霸者”的野心。
近日,微軟最新公布的研究論文,正在計劃為 Excel、谷歌 Sheets 等電子表格應用程序,開發(fā)全新的 AI 大語言模型--SpreadsheetLLM。
研究人員表示現有電子表格應用程序具備豐富的功能,在布局和格式方面為用戶提供大量的選項,因此傳統(tǒng) AI 大語言模型很難勝任電子表格處理場景。
而 SpreadsheetLLM 就是專門為電子表格應用而設計的 AI 模型,微軟還研發(fā)了 SheetCompressor(壓縮電子表格),讓 SpreadsheetLLM 能夠更好地理解、處理電子表格數據。
論文摘要部分,SpreadsheetLLM 模型主要由 3 個模塊組成:基于結構錨的壓縮、反向索引轉換和數據格式感知聚合。
SpreadsheetLLM 大大提高了電子表格表檢測任務的性能,在 GPT4 的情境學習設置中,比普通方法高出 25.6%;使用詞元(token)的成本降低了 96%,并能提供更好的處理結果。
論文指出,這種電子表格LLM框架,顯著提高了LLM解釋和利用電子表格的方式。但還有很多改進的空間,比如這種方法沒有利用電子表格格式的細節(jié),如背景顏色和邊框,因為它們需要太多的標記(這些元素通常包含有價值的上下文和視覺線索,可以進一步深化模型對電子表格數據的理解和處理)。
此外,雖然SheetCompressor有效地聚合了數據區(qū)域,但它目前沒有對包含自然語言的單元格采用復雜的基于語義的壓縮方法。例如,將“中國”、“美國”和“法國”等術語歸入“國家”等統(tǒng)一標簽下,不僅可以提高壓縮比,還可以加深LLM對數據的語義理解。探索這些先進的語義壓縮技術將是我們持續(xù)努力增強SpreadsheetLLM功能的一個關鍵重點。
目前還沒有關于微軟計劃何時或是否向公眾提供 SpreadsheetLLM 的消息