Apple 發表 ReALM 讓虛擬助理更加直覺好用

artificial-intelligence-2167835_1920

Apple 近日推出了一款名為 ReALM (Reference Resolution As Language Modeling) 的新型小語言模型,展現前所未有的參考解析方法,利用大型語言模型(LLM)的力量,徹底改變對話式 AI 系統解譯使用者查詢的方式。ReALM 不僅了解傳統的文字脈絡,更將螢幕上和背景中的實體納入解譯範圍,賦予虛擬助理「看見」和理解視覺世界的能力,帶來更自然直覺的使用者體驗。

「參考解析」(Reference resolution)的工作是辨別使用者查詢中引用的實體,這一直是機器學習和人工智慧領域的一大挑戰。現有方法難以應對現實世界對話的各種微妙差異。ReALM 將參考解析轉換為純粹的語言建模問題來克服這些限制,讓大型語言模型能更有效地學習和適應不同類型的參考型態。

其中一個關鍵創新,是 ReALM 能夠將螢幕上的實體編碼成文字。讓大型語言模型能夠解讀以往純文字模型無法取用的視覺元素。ReALM 藉由解析實體及位置,擷取螢幕內容所蘊涵的文本訊息。這一進步為對話式代理開啟令人振奮的可能性,尤其是在行動化免持環境中,了解螢幕上的資訊相當重要。

這項創新意義深遠。當相關實體識別的準確性提升,由 ReALM 支援的虛擬助理提供情境感知反應會更有效率,讓使用者與 AI系統的互動更加自然。ReALM 架構是在本機架構上部署,整合現有系統,能輕易解決隱私問題。

ReALM 所驅動的虛擬助理提供了更高效、更自然的互動體驗,使得 AI 更像是一個有用的夥伴,而不是機械式的對話工具。

除了對話式 AI,將視覺資訊編碼成文字供大型語言模型使用,為影像字幕及視覺問答等領域帶來了變革潛力。ReALM 讓 AI 系統能同時理解視覺和文字信息,等於是鋪好一條康莊大道,以便存取廣泛的技術,為身障使用者提供支援,更輕鬆地與設備地互動。

與 GPT-4 等大型模型相比,ReALM 規模較小,速度較快。未來的研究將探索更複雜的編碼方法,以更有效地捕捉空間關係,將大型語言模型的效率最佳化,降低運算成本。結合大型語言模型的力量與精細的空間表示,將進一步提升參考解析系統,同時擴展對話式人工智慧的應用潛力。