Gemini貫穿一切。
這是「甲子光年」在看完2024年Google I/O開發者大會的最大感受。
5月14日,谷歌2024年I/O開發者大會如期在加州山景城拉開帷幕。今年的主題完全圍繞人工智能展開,特別是生成式人工智能和其在各類應用中的實際應用,如 Workspace和Gmail的整合與優化。
首席執行官桑達爾·皮查伊(Sundar Pichai)在演講中一共說了121次“AI”,并喊出了一句嘹亮的口號——“整合全球信息,惠及所有民眾”。
現場,谷歌發布了Gemini系列的最新AI模型:Gemini 1.5 Flash。
同時,谷歌也宣布了Gemini 1.5 Pro升級,全面支持Workspace,同時向全球開發者開放。Google Workspace辦公套件也宣布將進一步整合Gemini,推出基于Gemini 1.5 Pro的多種技能,如可總結郵件內容。Gmail也將深度整合Gemini,匯總郵件內容并生成更好的回復。
1.AI模型:Gemimi宇宙
皮查伊在大會上公布了一系列AI模型的動態。
首先是對Gemini 1.5 Pro模型進行了升級。
Gemini 1.5 Pro模型已全球向開發者開放。原本它的上下文窗口是100萬tokens,現在增加到了200萬tokens,能處理更多的數據。
![Google I/O 2024: 從Gemini“宇宙”到Android 15](http://www.1jiwang.com/uploads/image/2024/0517/231Z144190.jpg)
谷歌I/O大會現場,來源:谷歌
用戶即使提供數千頁的文本或者幾個小時的視頻,Gemini 1.5 Pro也能夠理解內容并回答相關的問題。這項升級將讓模型能同時處理2小時的視頻、22小時的音頻、超過60000行代碼,或超過140萬個單詞。
下個月Gemini 1.5 Pro還將在API層面推出新功能,包括視頻輸入、并行函數調用和文本緩存,以提高處理多個請求和問答文件時的效率。
隨后他介紹了Gemini系列新模型——Gemini 1.5 Flash。
這是一個比Gemini 1.5 Pro模型運行更快,體積更小,更易于部署,支持處理多種類型的數據,它專為開發者設計。
Gemini 1.5 Flash位于Gemini 1.5 Pro和Gemini 1.5 Nano之間,通過一種稱為“蒸餾”的過程,將Pro版本中的關鍵知識和技能轉移到一個更小的模型中,使其具備與Pro相同的多模態功能和100萬個token的長上下文窗口。
Gemini 1.5 Flash現在就可以使用了。
DeepMind的聯合創始人兼CEO戴密斯·哈薩比斯(Demis Hassabis)提到,他們根據開發者的反饋,優化了模型的響應速度和成本效率。Gemini 1.5 Flash在處理大量數據方面表現出色,特別適用于聊天應用、視頻處理和圖像字幕。
Gemini 1.5 Pro將在Alphabet的內部測試實驗室Workspace Labs進行測試。Gemini 1.5 Flash也將在機器學習平臺Vertex AI上進行試驗和使用,該平臺使開發者能夠訓練和部署AI應用。
Gemini 1.5 Flash每百萬token的標準價格為0.7美元,輸出為1.05美元。對于較小的上下文(小于128k),有折扣價:輸入為0.35美元/百萬token,輸出為0.53美元/百萬token。這比GPT-3.5 Turbo的價格(輸入0.5美元/百萬token,輸出0.15美元/百萬token)要高一些。
![Google I/O 2024: 從Gemini“宇宙”到Android 15](http://www.1jiwang.com/uploads/image/2024/0517/231Z113161.jpg)
谷歌I/O大會現場,來源:谷歌
Gemini 1.5 Pro是Google當前最強大的模型,標準價格為每百萬token輸入7美元,輸出21美元。對于較小的上下文(同樣小于128k),折扣價格為輸入3.5美元/百萬token,輸出10.5美元/百萬token。相比于GPT-4o(輸入價格5美元/百萬token,輸出15美元/百萬token)略貴一些。
目前,谷歌正在籌備一款Project Astra的通用AI代理,這是一款通過智能手機攝像頭分析周圍世界并與用戶進行交互的應用。
Astra設計為能夠記住看到和聽到的內容,從而理解上下文并采取行動。為了提高實用性,谷歌優化了其處理信息的速度,通過持續編碼視頻幀和結合視頻與語音輸入到事件時間線上,并緩存信息以實現高效回憶。
此外,谷歌還通過增強語音模型,讓Astra具有更廣泛的語調,使其可以更自然地與用戶交流,無滯后或延遲。
在實際演示中,一個人使用手機的攝像頭掃描辦公室,與Astra通過語言交互,比如詢問“當你看到有東西發出聲音時,請告訴我。”Astra不僅能識別物體和代碼,還能實時進行語音互動,展現了它的實用性和交互能力。
Project Astra展示了其出色的視覺理解能力和快速的響應時間。一個人在辦公室中用攝像頭掃描其中的物品及場景,并用語音詢問它相關問題。與GPT-4o的功能異曲同工。
![Google I/O 2024: 從Gemini“宇宙”到Android 15](http://www.1jiwang.com/uploads/image/2024/0517/231Z111312.jpg)