廣目多聞--基於多模態大模型的文旅遊覽助手 | OPENAIGC開發者大賽企業組企業組優秀作品

在第二屆拯救者杯OPENAIGC開發者大賽中,涌現出一批技術突出、創意卓越的作品。爲了讓這些優秀項目被更多人看到,我們特意開設了優秀作品報道專欄,旨在展示其獨特之處和開發者的精彩故事。

無論您是技術專家還是愛好者,希望能帶給您不一樣的知識和啓發。讓我們一起探索AIGC的無限可能,見證科技與創意的完美融合!

創未來AI應用賽-企業組優秀作品

作品名稱:廣目多聞--基於多模態大模型的文旅遊覽助手

參賽團隊:上海墀聖信息技術有限公司天山長歌

作品簡介

本項目是一款基於多模態大模型,爲用戶提供AI導遊服務的應用方案。本方案可以根據用戶提供的博物館展品照片、基於預先標出的值得關注的部分,爲用戶提供導遊和問答互動,讓遊客便捷地獲取相關知識、典故、軼事,增加遊覽興趣,尤其是可作爲研學用戶的高效助手,在上線後繼續拓展海外市場。

項目設計

本項目提出了一款可根據用戶拍攝的博物館文物與展品照片,使用戶可以和多模態模型互動,獲取導覽內容,達到導遊的目的。功能主要有:

用戶側:

用戶拍攝展品照片後,在交互界面上傳,獲得展品上的”重點區域“標識

導覽內容包括:

博物館在後臺編輯的內容介紹

網絡上關於該展品及區域的介紹

專業資料和書籍對該展品及區域的介紹

“重點區域”也可以通過用戶的推薦而生成。用戶點擊生成遮罩,提交導覽內容和簡介,經審覈和用戶匿名投票後,達到標準的展示爲新的”值得關注的區域“。通過交互滿足社交性、趣味性、娛樂性,增加用戶參與度和使用粘性。

管理側:

博物館管理方在後臺可新增、編輯、刪除所屬的展品、”重點區域“信息,保證專業性和嚴肅性。

核心技術和創新點

主要使用如下多模態技術:

Segment Anything進行遮罩選取與分割

ImageBind+Lora進行圖像編碼和文本標題簡介的拉齊

基於Qwen-14B的RAG系統,結合文本標題簡介,提供經審覈的、嚴肅的學術性介紹和用戶互動功能

在RAG系統上的Agent,蒐集更多其它信息用戶互動

技術成果和突破

對齊了多模態編碼、圖像識別、大模型文本生成內容的功能;

將多模態不僅作爲大模型的黑盒子使用,而且拆分出來滿足用戶的個性化需求;

使用openvino,加速文本生成,使用戶體驗更好。

未來發展

本項目後面會拓展到自然景觀的應用,面向外部條件更復雜的戶外景觀,在光照、惡劣天氣等情況下實現落地。

另一方面迭代多模態大模型的版本和量化方式,使生成的速度和性能不斷提升。

- END -

報告下載

大 佬觀點分享

關於RPA、AI、企業數字化轉型

(點擊文字即可閱讀)

| |

| | |

| | |

| | |

| |

行業知識交流分享,結識擴展人脈圈層

公衆號後臺回覆【RPA】或者【流程挖掘】

可受邀加入相關的交流羣