中文|ENG
更多

谷歌發力AI搜索,視覺檢索+識別會成主流?AR眼鏡也要東山再起?

2022年6月20日

知情郎·眼|

侃透天下專利事兒


今年的谷歌开发者大会(Google I/O 2022)上有什么新玩意、硬科技?


谷歌翻译、谷歌多重AI搜索、保护性计算、Android 13、谷歌硬件。


在2小時的主題演講上,谷歌梳理了自己現有AI計算的進度,並演示了關鍵技術應用。並發布了谷歌手機,還提前曝光了谷歌AR眼鏡!


有不少最新技術理念和硬核産品,科技圈媒體已經鋪天蓋地報道了。


01谷歌的邏輯


一家高科技公司總要有句通俗易懂的口號,方便和用戶直接交流。


曲高和寡、孤芳自賞裝深沈裝睿智是行不通的。


谷歌CEO桑达尔·皮查伊(Sundar Pichai)很懂这思路,所以他的口号从来简明扼要。


這次他的口頭禅是:“谷歌的目的,深化用戶對信息的理解,讓人們無論在哪都能獲得知識。”


桑達爾·皮查伊印度平民家庭出身、買不起新書包的窮學生,一路爬到谷歌寡頭公司的CEO,皮查伊的成功充滿了勵志色彩,激勵著世界許多寒門子弟奮發前進。


Google搜索引擎、谷歌Chrome、Chrome OS、地图、Gmail、Android都是在他的带领下壮大的,人称劈柴哥!


谷歌的工程師文化在他手裏被發揚到了極致,一個重要的行事規則是——殺雞要用牛刀,集重兵狂投入優化産品功能性到極點。


Chrome浏覽器就是這個邏輯的經典産品,核心功能細節比同行強的時候,用戶蜂擁而至。


工程師文化,就是這點好,拼産品功效功能細節,沒有花哨,比不過別人就是比不過別人,沒有廢話連篇的自我遮羞布。


市場用户最公平,不管竞争是否激烈,不管条件是否艰苦,不管舞台大小,不看你演戏演技演给谁看。


就看産品本身實用性說話。


不行,千萬別浪費觀衆時間,大家都不傻,煩了,人家真會扔臭雞蛋香蕉皮砸人的。


02谷歌翻譯、谷歌地圖


在翻譯領域,谷歌已經要超神!


谷歌宣布,谷歌翻譯增加了對24種新語言的支持,深度神經網絡算法功不可沒!

大概全世界所有主流語言都能支持翻譯了。


在視頻領域,YouTube視頻已經支持了16種語言的實時翻譯。YouTube去年已經可以自動生成章節分段。現在通過語音/視頻腳本分析等,讓這種分段更准確,數量也會達到8千萬段。


在NLP(自然語言處理)領域,谷歌的AI技術可以對文字段落進行更好的理解、總結,並幫助用戶快速找到重點信息。


谷歌地图(Google Maps),进一步完善了地图数据,谷歌的心气自然是让全世界都能用谷歌地图,所以这次人家表态,已经能让非洲等偏远地区使用了。


有一說一,谷歌地圖的細節處理非常優秀。據官方說,已經開始大規模應用3D航拍、AI智能等技術,以此來確保導航、搜索等功能的准確性。


同時,3D繪圖和機器學習等+航拍,讓沈浸式實景地圖更逼真完整。


會上,谷歌也公布了關于地圖應用的最新數據:已在全球範圍內繪制超16億座建築和6000萬公裏的道路。


03多重維度AI搜索


谷歌核心産品是搜索引擎。


2022這産品又添加了什麽黑科技功能?


在之前,搜索是類似查詢的方式,你輸入文字,它給出一堆相應結果。


現在,用戶的要求多了,也複雜了。


例如用戶會上傳一張圖片、一段小視頻,甚至一段鳥叫聲,問圖片裏、視頻裏的是什麽鳥類?


這種問題不再是文字,而是圖片、視頻影音、文字的多維度結合。


這就是最新的技術“圖像檢索+識別”,比傳統文字檢索識別更難更複雜。


這屬于多重搜索,也是谷歌這些年發力的重點。


簡單的說,“多重搜索”利用AI多模型理解,去理解人們的搜索意圖,並用直觀的方式體現。


一個實例來說,在巧克力店去尋找“不含堅果黑巧克力”,用戶要做的是采用手機鏡頭去掃描貨架,找到指定的産品。



鏡頭去識別物體-加入篩選條件-呈現出結果。


這是圖像識別+篩選結果的過程,仍舊是一種搜索,但已經跟之前的搜索引擎體驗完全不同。



整個視頻檢索體驗與以往理解傳統文字框搜索很不一樣。


知情郎對這搜索應用技術歎爲觀止。


在德高行全球專利數據庫中,以圖像檢索+識別爲關鍵詞,在谷歌全球專利裏檢索了相關專利,以數量看,中國專利60件,包括發明公開32件、發明授權28件;美國專利205件,包括發明公開83件、發明授權122件


下表爲9件爲谷歌近期公開圖像檢索+識別領域的專利。


image.png

image.png

image.png

image.png


這些專利含金量都非常大,谷歌的目標是“用任何方式在任何地方進行搜索”,所以研究多維搜索,尤其是通過手機自帶的攝像頭視頻拍攝識別這種模式,大概率會成爲主流搜索應用之一。



04谷歌AI语音助手Google Assistant


手機帶AI語音助手,已經成了行業慣例。


國內比較成熟的就是百度語音助手小度,能幫助用戶處理一些簡單的操作指令。


谷歌的AI语音助手则是Google Assistant,谷歌称,在AI对话能力技术领域,全球每天有7亿人都在使用Google Assistant。


在开发者大会上,谷歌发布了“Look and Talk”功能,用户不再必须通过“Hi Google”唤醒设备。用户可以通过注视并直接讲话与语音助手进行交流。


你只需要看著設備屏幕上的前置攝像頭,並說出需求,語音助手就會進行應答。


另外,用戶可以直接通過一些快捷短語控制語音助手,進行一些事項的處理,比如上個鬧鍾、關個燈。


谷歌的核心目的,就是讓用戶可以與語音助手交互的更自然。


值得一提的是,在開放式對話處理方面,谷歌進一步優化了神經網絡模型,語音助手甚至可以對非連續的對話進行理解。


比如用戶說話的時候即使磕巴、語句斷斷續續,語音助手還是可以聽懂用戶的意思。

▲AI會去掉語句中的“停頓”和“卡殼”


去年谷歌发布了生成语言模型LaMDA,谷歌今年将其迭代为LaMDA 2,并向一些谷歌员工开放测试。


LaMDA甚至學會了“想象”,比如當用戶說,“想象世界上最深的海是什麽樣子”,LaMDA會找到馬裏亞納海溝。


此外,用戶還可以與LaMDA圍繞某一話題展開討論,LaMDA會一直圍繞這一話題進行回答。


比如討論關于“狗”的話題,LaMDA的回答都會圍繞狗來展開。


谷歌在發布會上也提到了近期發布的PaLM大模型,該模型包含5400億參數,它可以解答數學問題,甚至可以解釋一個笑話。


PaLM可以用沒有訓練過的語言回答用戶提出的問題,打破語言的邊界。


谷歌在大会上宣布,他们将为谷歌云客户提供全球最大的开放机器学习中心,该数据中拥有9 exaFLOPS的算力。


另外,Android 13今年发布。


05谷歌手機


大家比較的關心也是這個。


首先是谷歌Pixel 6a,它是旗舰Pixel 6的“青春版”,依旧是谷歌自研芯片Tensor ,也依旧支持5G,还有Android 13系统。


外觀設計類似,但看起來沒那麽高端(應該是塑料材質),背後是1200萬像素的雙鏡頭系統,價格更低了只要449美元起,走的是平民廉價路線。


有一说一,谷歌这思路是挺政治正确的,在中高端市場,苹果在美国的统治力过大,死磕没必要,不如学当年的小米,继续走低价倾销策略,专注低端市場扩销量是真。


這手機7月21日預售,7月28日上市。


這款手機跟之前所有Pixel手機一樣,是Android系統和剛才講那一大票AI技術+算法的硬件體現;或者說是谷歌技術的硬件軀殼。


06新款AR眼鏡


在開發者大會末尾,公司透露,它正在開發一副新的增強現實智能眼鏡,旨在“打破溝通障礙”。


外形和普通眼鏡類似,減少了佩戴者的突兀感。


功能方面,谷歌AR眼鏡可以直接看到翻譯在眼前的語言,非常酷。相當于直接給你加字幕解讀外文影視劇!


但谷歌沒有透露該設備的具體名稱,也沒有說什麽時候會向消費者發布。


谷歌AR眼鏡天天在講故事,講了好多年,就是沒看見好的應用産品,大家等的黃花菜都涼了。


這行業競爭也激烈,Meta、蘋果、三星、微軟等科技巨頭都陸續透露正在研究或者即將推出AR眼鏡産品。


不过,据媒体报道,谷歌之前收购了Raxium,这是一家专注于开发针对AR/VR/MR设备应用的单片集成式RGB Micro LED微显示器公司,很明显,谷歌收购这家公司也是为了提高AR设备的适用性,看来,这次人家有备而来。


知情郎專門查了下公司專利,在德高行全球專利數據庫中,關于google的AR眼鏡專利,中國專利43件,包括發明公開21件、發明授權7件、外觀設計15件。美國專利124件,包括發明公開60件、發明授權57件、外觀設計7件。


看了眼谷歌4月底公布的最新智能眼鏡專利,這專利除了賦予眼鏡用戶傳統的所示視圖外,還增加了將信息(例如,數字圖像)疊加至視場並基于例如光學頭戴式顯示屏(OHMD)、兼具透明頭戴式顯示屏(HUD)嵌入式無線眼鏡進行AR視圖覆蓋,總而言之,現代智能眼鏡實際上可以是運行獨立移動應用程序的可穿戴電腦,並能支持用戶通過免提、自然語言語音命令以及觸屏功能按鈕與互聯網通信。


外媒的原話是:谷歌正在開發的智能眼鏡兼具了AR功能,可呈現融合了真實和虛擬圖像的增強現實視圖,與谷歌之前推出的智能眼鏡相比,顯然這款眼鏡具有更好的性能,其配置的高質量攝像頭模塊和3D傳感模塊將在虛擬圖像與現實世界的融合中發揮著關鍵作用。


至于現實效果,誰用誰知道!沒見過成品,啥都不說!



07視覺搜索查詢的智能系統


分享個谷歌AI搜索技術研發方面的最新專利,視頻檢索+識別是它最新發力點。


image.png


一般而言,本公开涉及一种计算机实现的视觉搜索系统,可以用于检测 和识别视觉查询中的对象或与视觉查询相关的对象,然后提供响应视觉查询 的更个性化和/或智能的搜索结果(例如,在增强视觉查询的覆盖中)。


例如, 用户可以提交包括一个或多个图像的视觉查询。在视觉查询中或与视觉查询 相关,各种处理技术(诸如光学字符识别(OCR)技术)可以用于识别文本 (例如,在图像、周围图像中等)和/或各种对象检测技术(例如,机器学习 对象检测模型等)可以用于检测对象(例如,产品、地标、动物、人类等)。


可以识别与检测的文本或对象(或多个)相关的内容,并可以将其作为搜索 结果提供给用户。因此,本公开的方面使得视觉搜索系统能够更智能地处理视觉查询以提供改进的搜索结果,包括更个性化和/或考虑情境信号的搜索结 果来解释视觉查询和/或用户搜索意图的隐式特征。


本公開的示例方面響應于視覺查詢提供了更智能的搜索結果。


视觉查询 可以包括一个或多个图像。例如,在视觉查询中包括的图像可以是同时捕获 的图像,也可以是先前存在的图像。


在一个示例中,视觉查询可以包括单个图像。在另一示例中,视觉查询可以包括来自大约三秒视频捕获的十个图像 帧。


在又一示例中,视觉查询可以包括图像的图像库,例如,包括在用户的 照片库中的所有图像。


例如,诸如库可以包括用户最近捕获的动物园动物的 图像、用户不久前捕获的猫的图像(例如,两个月前)以及用户从现有来源 (例如,从网站或屏幕捕获)保存到库中的老虎的图像。这些图像可以代表 用户的一组高亲和力图像,并体现(例如,通过图形)用户可能对类似动物 的事物具有“视觉兴趣”的抽象想法。


任何給定的用戶都可能有許多這樣的節點集群,每個節點集群代表的是無法很好地被詞捕獲的興趣。


根据一个示例方面,视觉搜索系统可以构建并利用用户中心视觉兴趣图 来提供更个性化的搜索结果。在一个示例使用中,视觉搜索系统可以使用用 户兴趣图来过滤视觉发现通报、通知或其他机会。


因此,在示例性实施例中, 在搜索结果在查询图像的增强覆盖中呈现为视觉结果通知(例如,在某些情 况下可称为“闪光(gleams)”)的示例性实施例中,基于用户兴趣的搜索结 果的个性化可能特别有利。


更具体地,在一些实现中,视觉搜索系统可以包括或提供增强覆盖用户 界面,用于为搜索结果提供视觉结果通知,作为视觉查询中包括的图像的覆 盖。


例如,视觉结果通知可以在和与搜索结果相关的图像部分相对应的位置 提供(例如,视觉结果通知可以显示在与对应搜索结果相关的对象的“顶部”)。因此,响应于视觉搜索查询,可以识别多个候选搜索结果,并且多个候选视 觉结果通知可以分别与多个候选搜索结果相关联。然而,在底层视觉搜索系 统功能强大且范围广泛的情况下,大量候选视觉结果通知可能可用,使得所有候选视觉结果通知的呈现将导致用户界面混乱地拥挤或以其他方式不希望 地模糊基础图像。


因此,根據本公開的一個方面,計算機視覺搜索系统可以 构建并利用用户中心视觉兴趣图来基于观察的用户视觉兴趣对候选视觉结果 通知进行排名、选择和/或过滤,从而提供更直观和简化的用户体验。


在一些实现中,用户特定兴趣数据(例如,可以使用图表示)可以至少 部分地通过分析用户过去参与的图像随时间聚合。


换言之,计算系统可以通过分析用户随时间参与的图像来尝试理解用户的视觉兴趣。当用户参与图像 时,可以推断图像的某些方面是用户感兴趣的。因此,可以在用户特定兴趣 数据(例如,图)中添加或以其他方式标注包括在此类图像中或与此类图像 相关的项(例如,对象、实体、概念、产品等)。



△文章來源:德高行·知情郎


返回
關于全志|聯系我們|投資者關系 |加入我們

法律聲明

歡迎登陸全志官網!

? 珠海博天堂手机app股份有限公司("全志")在此特别提醒访问本网站的用户或浏览者认真阅读、充分理解下列条款。您的登陆和使用行为视为您接受下列条款并受其约束,包括全志后续对其修改。如您不同意,请停止使用。 

? 更多详细信息,请點擊此處進行浏覽,謝謝。

以上規則的解釋權歸全志所有,並保留隨時對本網站上的內容和規則進行更新和補充的權利,請你隨時訪問以便獲取最新消息。


★  ?2024 珠海博天堂手机app股份有限公司 | 粵ICP備16116213號-6   粤公网安备 44049102496526号   ★

搜索