2024谷歌I/O开发者大会,生成式AI被推上顶峰,大模型安卓15确定要上!
作者:娛樂 來源:時尚 瀏覽: 【大 中 小】 發(fā)布時間:2025-08-02 09:16:25 評論數(shù):
挺過最困的12點,在大家可能已經(jīng)邁入睡眠的時候,在凌晨1點時刻,我們迎來了期待許久的2024谷歌I/O開發(fā)者大會!
本次開發(fā)者大會,谷歌核心的重點就放在時下非常火熱的生成式AI功能上,其中多次談及再度升級的Gemini1.5 Pro大模型,并且還發(fā)布了谷歌視頻生成模型Veo。
另外谷歌搜索也進(jìn)行升級,同時也宣布Gemini模型將會用于在Android 15之上,并展示了一系列即將上線的生成式AI功能。
發(fā)布會開始,谷歌正式推出了“AI Overviews”搜索功能,不過本周會在美國率先開放,后續(xù)會陸續(xù)在其它國家和地區(qū)上線。
谷歌搜索融入Gemini大模型,搜索可以AI生成摘要,并且可以輸入一段精確的文字,然后根據(jù)文字內(nèi)容以及場景,去匹配搜索的內(nèi)容,在做旅游規(guī)劃時也會創(chuàng)建更合理的清單,甚至?xí)鶕?jù)天氣去做推薦。同時還將上線視頻搜索功能,可以拍攝一段視頻來搜索想要查找的內(nèi)容。
隨后帶來了一個“Ask Photos”功能,該功能的主要亮點就是,在Gemini大模型之下,通過聊天的方式去搜索照片或者視頻,比如詢問我的車牌是多少,通過檢索+辨別的方式,搜索出你的車牌號。另外詢問孩子的游泳狀況,會搜集到孩子過往的游泳照片,該功能將會在夏天正式推出。
另外谷歌還發(fā)布了一個Gemini 1.5 Flash模型,相比Gemini1.5 Pro成本更低,并且針對延遲做了優(yōu)化,宣稱可以一次性分析1500頁文檔或超過30000行的代碼庫,為開發(fā)人員提供了一個低成本的選擇。
緊接而來的是一個重磅Project Astra項目,面向未來的生成式AI交互體驗!
演示的視頻,顯示的是手機(jī)通過攝像頭對于周圍空間環(huán)境的理解,并且能夠?qū)崟r的進(jìn)行語音交互。打開手機(jī)攝像頭,詢問拍到的物體,可以準(zhǔn)確識別并給出語音回答,甚至還能記起拍攝過程某個物體的位置,而這種功能可以從手機(jī)流轉(zhuǎn)到眼鏡上繼續(xù)使用。
在文生圖功能上推出了 Imagen 3,相比上代可以更加準(zhǔn)確的識別文字信息,創(chuàng)作的圖片也會更符合文本描述。
除了圖片、文本生成式創(chuàng)作以外,谷歌發(fā)布了視頻生成模型Veo,對標(biāo)OpenAI的Sora,可以通過文本、圖像來生成視頻,生成的視頻分辨率可以達(dá)到1080P,并且視頻時長可以超過1分鐘。
在辦公場景中,谷歌 Gmail也會加入Gemini的大模型能力,不僅可以去總結(jié)郵件的內(nèi)容,甚至可以根據(jù)需求去比較郵件內(nèi)容(比如同樣裝修報價郵件,可以自動比價),并且根據(jù)上下文語境智能提供回復(fù)內(nèi)容。
在開發(fā)者大會上,谷歌也是明確安卓15將會加入谷歌Gemini大模型,提供更多的AI功能,比如已經(jīng)在三星AI手機(jī)上采用的即圈即搜功能,除了可以搜索物體以外,還加入了截圖功能,圈選題目給出解題思路和答案,幫助學(xué)生解題。
另外在查看PDF等文件時,可以總結(jié)PDF的文件內(nèi)容,并且以詢問的方式獲得PDF里面你想要了解的內(nèi)容。如果識別的頁面是視頻,也可以對視頻的內(nèi)容、字幕進(jìn)行分析,更快速獲得視頻里面的內(nèi)容。
而且谷歌還為手機(jī)加入了AI詐騙電話檢測功能,如果在通話過程中識別到疑似詐騙的行為,就會彈出提示窗來警告用戶。
相比目前國內(nèi)手機(jī)的生成式AI功能,谷歌所帶來的即圈即搜的解題、視頻的內(nèi)容AI分析、AI詐騙電話檢測等功能,進(jìn)一步豐富了手機(jī)AI功能體驗,大會上谷歌也宣布明天會上線Android 15 Beta 2,期待Android 15正式版上線時所帶來的更多AI驚喜。