今天,Google 年度開發者 I/O 大會 2024 在加利福尼亞州山景城的 Shoreline Amphitheatre 舉行,此次大會以 Alphabet 首席執行官桑達爾·皮查伊 (Sundar Pichai) 的主題演講拉開序幕。谷歌此前已經明確表示,今年的 I/O 大會將全部圍繞人工智能展開。
這次大會上,皮查伊宣布了谷歌內部的最新技術進展,尤其是圍繞 Gemini 所做的所有工作。
狂卷長文本,Gemini 家族迎來重大更新
“我們希望每個人都能從 Gemini 所做的事情中受益,”皮查伊說。他還透露了 Gemini 將如何融入谷歌的許多服務中。人們使用 Google 搜索的方式比以往任何時候都多,關鍵字搜索的時間甚至更長。
大會一開始皮查伊就宣布了 Gemini 系列大模型的更新。首先是 Gemini 1.5 Pro,可提供 100 萬長文本能力,并且已經向全球開發者開放。
Gemini 1.5 Pro 是在上個月舉辦的 Google Cloud Next 2024 大會上發布的,具有原生音頻理解、系統指令、JSON 模式等。
Gemini 1.5 Pro 能夠使用視頻計算機視覺來分析圖像(幀)和音頻(語音)的視頻,這使其具有人類水平的視覺感知。使用深度神經網絡,Gemini 1.5 可以以超人的精度識別圖像(和視頻幀)中的物體、場景和人物。
成本問題一直是大模型開發的痛中之痛,為了解決這一痛點,谷歌 DeepMind 首席執行官 Demis Hassabis 宣布推出 Gemini 1.5 Flash 模型,該模型旨在兼顧快速和成本效益。
“Gemini 1.5 Flash 擅長摘要、聊天應用程序、圖像和視頻字幕、從長文檔和表格中提取數據等,”Google DeepMind 首席執行官 Demis Hassabis 此前在博客文章中寫道。 Hassabis 補充說,谷歌創建 Gemini 1.5 Flash 是因為開發人員需要一個比 Gemini 1.5 Pro 更輕、更便宜的模型。
Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之間,是針對開發者的大模型。盡管比 Gemini Pro 輕,但它的功能同樣強大,谷歌表示這是通過“蒸餾”的方式來實現的,將 Gemini 1.5 Pro 中最重要的知識和技能轉移到較小的模型上。這意味著 Gemini 1.5 Flash 將獲得與 Pro 相同的多模式功能,以及其長上下文窗口(AI 模型一次可以攝取的數據量),100 萬個 token。
最大的更新尚未到來——谷歌宣布今年晚些時候將模型的現有上下文窗口增加一倍,達到 200 萬個 token。這將使其能夠同時處理 2 小時的視頻、22 小時的音頻、超過 60,000 行代碼或超過 140 萬個單詞。
![谷歌這次又“殺瘋了”!200 萬 token 長文本能力問鼎全球最強](http://www.1jiwang.com/uploads/image/2024/0520/23140132030.png)
谷歌的 Josh Woodward 詳細介紹了 Gemini 1.5 Pro 和 Flash 的定價。Gemini 1.5 Flash 的價格定為每 100 萬個 token 35 美分,這比 GPT-4o 的每 100 萬個 token 5 美元的價格要便宜得多。
![谷歌這次又“殺瘋了”!200 萬 token 長文本能力問鼎全球最強](http://www.1jiwang.com/uploads/image/2024/0520/23140210951.png)
值得一提的是,此次大會谷歌重磅宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced。升級后的 Gemini Advanced 可以處理“多個大型文檔,總計最多 1,500 頁,或匯總 100 封電子郵件”。支持 35 多種語言和 150 多個國家/地區。而其“即將”推出的功能是能夠“處理一個小時的視頻內容或超過 30,000 行的代碼庫”。全球最強長文本能力可謂實至名歸。
![谷歌這次又“殺瘋了”!200 萬 token 長文本能力問鼎全球最強](http://www.1jiwang.com/uploads/image/2024/0520/23140461482.png)
該公司還正在開發名為 Project Astra 的通用 AI 代理。大會現場,Demis Hassabis 展示了 Astra 模型,該模型通過智能手機攝像頭分析世界,并與用戶進行對話。 Demis Hassabis 表示,他的團隊“一直希望開發對日常生活有幫助的通用人工智能代理”。 Project Astra 是這方面進展的結果。
Project Astra 類似一款以取景器作為主界面的應用程序。谷歌在演講中展示了一個人拿著手機,將攝像頭對準辦公室的各個地方,并用語言與其交互:“當你看到有東西發出聲音時,請告訴我。”在這段視頻演示中,Gemini 能識別各種物體甚至代碼,并實時與人類進行語音互動。
在視頻中,Astra 的反應很快。之所以能實現這一目標,是因為這些“Agent”“旨在通過連續編碼視頻幀、將視頻和語音輸入組合到事件時間線中,并緩存這些信息以進行有效回憶,從而更快地處理信息。”
![谷歌這次又“殺瘋了”!200 萬 token 長文本能力問鼎全球最強](http://www.1jiwang.com/uploads/image/2024/0520/23141032433.png)