☰

廣目多聞--基於多模態大模型的文旅遊覽助手 | OPENAIGC開發者大賽企業組企業組優秀作品

在第二屆拯救者杯OPENAIGC開發者大賽中，涌現出一批技術突出、創意卓越的作品。爲了讓這些優秀項目被更多人看到，我們特意開設了優秀作品報道專欄，旨在展示其獨特之處和開發者的精彩故事。

無論您是技術專家還是愛好者，希望能帶給您不一樣的知識和啓發。讓我們一起探索AIGC的無限可能，見證科技與創意的完美融合！

創未來AI應用賽-企業組優秀作品

作品名稱：廣目多聞--基於多模態大模型的文旅遊覽助手

參賽團隊：上海墀聖信息技術有限公司天山長歌

作品簡介

本項目是一款基於多模態大模型，爲用戶提供AI導遊服務的應用方案。本方案可以根據用戶提供的博物館展品照片、基於預先標出的值得關注的部分，爲用戶提供導遊和問答互動，讓遊客便捷地獲取相關知識、典故、軼事，增加遊覽興趣，尤其是可作爲研學用戶的高效助手，在上線後繼續拓展海外市場。

項目設計

本項目提出了一款可根據用戶拍攝的博物館文物與展品照片，使用戶可以和多模態模型互動，獲取導覽內容，達到導遊的目的。功能主要有：

用戶側：

用戶拍攝展品照片後，在交互界面上傳，獲得展品上的”重點區域“標識

導覽內容包括：

博物館在後臺編輯的內容介紹

網絡上關於該展品及區域的介紹

專業資料和書籍對該展品及區域的介紹

“重點區域”也可以通過用戶的推薦而生成。用戶點擊生成遮罩，提交導覽內容和簡介，經審覈和用戶匿名投票後，達到標準的展示爲新的”值得關注的區域“。通過交互滿足社交性、趣味性、娛樂性，增加用戶參與度和使用粘性。

管理側：

博物館管理方在後臺可新增、編輯、刪除所屬的展品、”重點區域“信息，保證專業性和嚴肅性。

核心技術和創新點

主要使用如下多模態技術：

Segment Anything進行遮罩選取與分割

ImageBind+Lora進行圖像編碼和文本標題簡介的拉齊

基於Qwen-14B的RAG系統，結合文本標題簡介，提供經審覈的、嚴肅的學術性介紹和用戶互動功能

在RAG系統上的Agent，蒐集更多其它信息用戶互動

技術成果和突破

對齊了多模態編碼、圖像識別、大模型文本生成內容的功能；

將多模態不僅作爲大模型的黑盒子使用，而且拆分出來滿足用戶的個性化需求；

使用openvino，加速文本生成，使用戶體驗更好。

未來發展

本項目後面會拓展到自然景觀的應用，面向外部條件更復雜的戶外景觀，在光照、惡劣天氣等情況下實現落地。

另一方面迭代多模態大模型的版本和量化方式，使生成的速度和性能不斷提升。

- END -

報告下載

大佬觀點分享

關於RPA、AI、企業數字化轉型

(點擊文字即可閱讀)

| |

| | |

| |

行業知識交流分享，結識擴展人脈圈層

公衆號後臺回覆【RPA】或者【流程挖掘】

可受邀加入相關的交流羣

相關資訊