文科生揭秘古代數學 自研AI瞄準加油站痛點 大模型糾錯標語翻譯

林錦耀

李宇耀 廣外信息科學與技術學院信息技術教學部系主任

韓軼超

郝鵑 廣外信息科學與技術學院軟件工程系講師

王晨旭

周棟 廣外信息科學與技術學院軟件工程系教授

掃碼看專題

日前,由廣東省教育廳主辦、廣東外語外貿大學(以下簡稱“廣外”)承辦的2024年廣東省大學生計算機設計大賽暨第17屆中國大學生計算機設計大賽粵港澳大灣區賽(以下簡稱“大賽”)成功舉辦,來自粵港澳大灣區138所高校的5102件作品參賽,參賽師生增至近2.5萬人,規模空前。其中,廣外全校共有來自46個專業537人次參賽,18組作品獲得國家級賽獎項,包括一等獎1項、二等獎9項、三等獎8項。

近日,南都記者走近三組獲獎團隊師生,傾聽科創新生代的青春故事。

國際商務英語學院學生林錦耀

探索計算機起源 廣州赤崗塔作答

“一上一,一下五去四,一去九進一……”嘴裡念着口訣、手指在算珠上飛舞,珠算課上的場景讓人印象深刻。中國珠算被譽爲“世界上最古老的計算機”,從結繩計數到四則運算,中國古人一直是探索計算技術的前進者。探索計算技術的起源,是廣外學生林錦耀(團隊)的作品《古數華典》內容背景之一。

林錦耀是廣外國際商務英語學院管理學專業大三學生,今年組建一支全文科團隊參賽,製作的作品獲得了2024年中國大學生計算機設計大賽一等獎、2024年廣東省大學生計算機設計大賽一等獎(數媒動漫與短片)。

全文科戰隊 因古代數學結緣

去年12月,林錦耀收到一則通知:今年大賽,誰要參加?2024年4月11日要開始第一場比賽。組隊、與指導老師溝通、確定選題……時間緊張,林錦耀想到自己所屬的社團,有的擅長文案,有的擅長視頻拍攝,有的擅長剪輯。今年1月,林錦耀把組員全部集齊,這是一支完全文科“戰隊”,5人都來自商英學院。

文科生如何解決理工題?林錦耀選擇了數媒動漫與短片類別。“剛拿到題時其實心裡是沒底的。”得知競賽題目是古代數學的時候,林錦耀說,他和團隊直接跑去了李宇耀辦公室。

李宇耀是廣外信息科學與技術學院信息技術教學部系主任,研究教育/人文數據挖掘,大賽經驗豐富。“當時覺得他們很有幹勁,覺得可以試一試,就答應了下來,雖然他們屬於文科類別,但數媒賽道更能展現文科同學的創意,也是很合適他們的方向。”

中國的算盤就是在古代最好的算力工具。經過長時間發展,纔有了今天觸手可及的大數據模型、人工神經網絡等更強大的算力工具。經過李宇耀的指導和思路梳理,林錦耀(團隊)專心將文案細節整理優化,最終確定了用圓周率、珠算和數列爲代表,展現中國古代數學的成就。

“就像數列篇,我們介紹到廣州的赤崗塔,他的建造使用到了數列的知識,這是古人智慧具體展現在當代人面前的事物,我們當時覺得這個也是很重要的展示場景。”林錦耀說道,借用身邊可觸碰的歷史,讓短片更生動和教育意義,中國古代數學並不僅僅是教材中冰冷的文字,他們鮮活地存在我們的生活裡面。

發揮專業特色 講好中華故事

廣州作爲千年商都,外語外貿是城市的底色也是廣外的特色。林錦耀和團隊在製作視頻時,也在思考如何把文科的知識結合在理工科的課題裡面,“我們都是英語專業出身,思考能否把英語融合在作品中。”

翻譯古代專有名詞不是一件容易的事情,非常考驗團隊專業素養,翻譯選擇是意譯還是音譯,標點符號的應用都需要紮實的功底,林錦耀和團隊都花費了大量的時間和精力,最終在省賽和國賽之前,製作了雙語字幕。林錦耀和團隊目標就是向世界講好中國古代數學故事。

天氣原因的干擾多次打亂拍攝計劃,短片中赤崗塔的無人機航拍畫面,對天氣要求很高,整個6分多鐘視頻,雖然赤崗塔只出現了兩三秒,但團隊花費了三四個小時,拍下五六十條素材回去剪輯。赤崗塔作爲廣州曾經的標誌性建築之一,是視頻對古代數學成就最好的“解答”之一,林錦耀和團隊希望用他們的力量表現中華古代數學文化對古代乃至當世發展的巨大貢獻。

林錦耀和團隊從今年2月份開學起,開始商量用什麼技術來展現主題。他們計劃實景拍攝,又覺得很普通,他們嘗試製作一些2D或者3D動畫去替代。“有些軟件之前的確沒有接觸過,可以說是從0開始學。”作爲非專業的學生,團隊一步一步查着教程、實踐,一步一步解決出現的難題。

不拘泥於範式,創新是此次大賽的初衷。《古數華典》這部完全由文科學生創意製作,由工科老師指導的競賽作品,通過介紹古代數學成就,林錦耀和團隊用創新方式重現了中華古代數學文化,讓世界重新瞭解人類在追求計算技術發展中,中華民族對古代乃至當世發展的巨大貢獻。

寄語

李宇耀 廣外信息科學與技術學院信息技術教學部系主任

對學生:特別有想象力和執行力的優秀團隊。中國古代數學有很多輝煌的成就,如何用當代方式表達,是非常需要想象力去展現的。

對作品:在整個設計語言和主題的關聯度上,有很多獨具匠心的設計。計算機和人工智能技術的飛速發展,降低了技術門檻,使得更多專業領域的創作者可以靈活駕馭。文科思維的人文關懷特質,被技術賦能後,創作出來的作品會有一種特別的穿透力。文科在這一塊有特殊的優勢,這是一片藍海。

信息科學與技術學院學生韓軼超

從0開始調研學編程 爲解決加油站安全生產難題

登錄平臺打開攝像頭,點擊加油區模塊出現:一個橙色框框住正在加油的汽車,另一個紅框框住一處普通人肉眼難以識別的小火苗,實時發出警報……爲解決廣東鄉鎮加油站人工監控視頻監管效率低下等問題,韓軼超組隊自研AI系統《加油站安全作業智能監控管理平臺》。“我們正在申請兩個軟件著作。”韓軼超是廣外大三學生,他的參賽作品在10月10日公佈的2024年(第17屆)中國大學生計算機設計大賽結果中被評爲二等獎,同時也是2024年廣東省大學生計算機設計大賽(人工智能應用)一等獎作品。這位科創新生代從0開始多次調研,爲企業量身定製低成本方案,歷時一年自研AI算法,科技成果正轉化爲現實生產力。

“奔着落地去” 瞄準鄉鎮加油站安全生產痛點

韓軼超就讀於廣外信息科學與技術學院計算機科學與技術專業,大一加入創新實驗室。郝鵑與餘揚是實驗室的老師,也是該參賽作品的指導老師,她們早已定下目標:研發加油站安全作業智能監控管理平臺。

去年11月,郝鵑帶團隊多次前往廣東一家成品油銷售公司和大學城某加油站進行實地調研。第一次調研,他們被一段歷史事故視頻觸動到:原本火苗很小,小到在監控攝像頭,普通人用肉眼難以捕捉,突然嘣一下,爆炸了。“用人工智能技術去做分析識別和實時預警,是不是就能避免了?”韓軼超心想。

一次次實地調研,他們發現廣東加油站存在三個主要問題。首先是人工監控視頻導致監管效率低下。被調研的成品油銷售公司在廣東的加油站有1100餘座(包括合資油站),按每座加油站10個監控攝像頭配置,十幾個專職工作人員24小時實時着監控一萬多個攝像頭。再者,工作鏈條過長導致違規行爲處理滯後。三是廣東鄉鎮加油站工作人員數量不足、當地市民安全意識不高等問題更爲突出。目前廣東加油站總量近6000座,位於縣鄉道和農村地區的加油站比例爲52%左右,鄉鎮加油站基數大、佔比高。結合調研情況,方案做出設計:要面向廣東鄉鎮加油站。

“我們是奔着落地去的。”韓軼超發現,加油站的電腦均沒有配置GPU,而人工智能產品需要在導入各地加油站的電腦後,通過GPU等加速器實現功能,“如果方案設計前忽略了這點,加油站就需要新增配置,成本是巨大的、不實際的。”結合企業實際需求再分析,方案做出調整:這個系統必須要輕量級。

“沒有先例” 自學兩種編程語言徹夜寫代碼做系統

瞄準廣東鄉鎮加油站實際生產兩個最痛點做系統,目前市面上基本沒有成型的系統產品,“沒有先例。”韓軼超說。從0開始,開發系統,敲定場景。開發系統,需要識別加油站違規行爲。對於初次做人工智能系統的學生團隊來說,短時間內,不可能做到全部識別。“那就一個個嘗試。”團隊與企業敲定先做6種違規行爲。

從0開始,自研訓練模型,收集數據集。韓軼超騎着自行車跑去附近加油站拷貝日常監控視頻和圖片,攜兩個硬盤“滿載而歸”。但圖片僅有1000多張,訓練出來的模型精準度非常低,數據集體量遠遠不夠。“那就自己模擬場景拍圖。”韓軼超與隊友借來加油站工作服、戴上安全帽登上梯子,一人爬上教學樓二樓舉着攝像機拍,另一人來回走動模擬打電話等場景。最終,數據集內有近60萬張圖,每張圖均有標記。在運行系統時,韓軼超意識到,系統沒法同時標註多種場景。團隊現在掌握的技術,沒法寫出並行監測的代碼。怎麼辦?從0開始,學編程語言,寫程序代碼。爲實現以上功能,要自學兩種編程語言,同時還要統籌作品進度做優化,韓軼超常常徹夜寫代碼做系統。他用自學Python語言,編寫出了加油站智能監控子系統,可以讀取攝像頭的圖像,實時動態分析加油站中人和物是否存在違規行爲或安全隱患點。

5月25日是2024年廣東省大學生計算機設計大賽決賽,作品獲得(人工智能應用)一等獎。暑期期間,作品獲得2024年(第17屆)中國大學生計算機設計大賽二等獎。“我們正在申請兩個軟件著作。”韓軼超在10月17日接受南都記者採訪時,一臉自豪地說。今年10月初,廣東一家成品油銷售公司願意開放一個加油站的端口實測這個平臺。“公司看上的是參加國賽時的新系統。我們會持續優化系統,希望更多師弟師妹加入,一起把系統做得更完美。讓這個平臺落地全國,走向全世界。”韓軼超滿眼憧憬。

寄語

郝鵑 廣外信息科學與技術學院軟件工程系講師

對學生:這幫孩子心中有愛、眼裡有光。用心用情日夜鑽研,他們說科研是快樂的,這份純粹的熱愛,讓我動容。希望有更多孩子也能堅持長期主義,紮根一個研究項目,靜下心來,深入研究,體驗心流的感覺,享受研究的快樂,獲得真正的成長。

對作品:把論文寫在祖國大地上,是這個作品最大的意義。把他們從課堂帶到企業裡、帶到社會上,關心社會,關心國家,去發現社會上還有很多的問題值得去做,這樣他們纔會想到用科技服務社會,使我們的生活更美好。

信息科學與技術學院學生王晨旭

AI糾錯城市標語 翻譯更快更全面

“馬桶易堵”翻譯成“Toilet is blocKed(馬桶已堵)”……去年年末,王晨旭發現,廣州不少公共設施標語充斥着此類翻譯錯誤。“希望這個系統能對廣州甚至全國的標語正確翻譯和使用起到作用。”王晨旭是廣外信息科學與技術學院大三學生,今年組隊自研的《基於生成式人工智能的廣州市標語翻譯與糾錯系統》,獲得了2024年廣東省大學生計算機設計大賽一等獎(軟件應用與開發)與2024年中國大學生計算機設計大賽二等獎。

一個跨學科跨專業的五人團隊,歷時9個月自研AI系統,以人工智能應用等我省戰略產業發展方向爲研究方向,致力於爲城市裝上AI眼睛,提升城市美好形象,讓城市治理現代化。

偶然發現 公廁標語、地鐵電梯標語翻譯錯誤多

去年歲末,王晨旭閒逛流花湖公園,一個公廁標語英文翻譯引起他的注意:“馬桶易堵”翻譯成“Toilet is blocKed(馬桶已堵)”。

一字之差,意思差之千里。無獨有偶,隨後一次外出吃飯,王晨旭注意到,廣州地鐵二號線站內的手扶電梯標語:電梯(elevator)被譯爲“stair(樓梯)”。

“標語的指示功能被大大削弱了。”王晨旭上網搜索發現,翻譯錯誤的標語在全國有很多,在二三線城市更爲氾濫。例如“小心地滑”的標語,底下對應的英語卻是slip carefully(小心地滑倒)。雖然看起來是小問題,但頻繁的出現,對城市的國際形象會產生負面影響,也會對有需要的人產生錯誤的指引。他開始琢磨:“該做一個怎樣的軟件解決這些問題?”

王晨旭發現市面上同類App能實現的功能還比較初級。他想要做的不只是一個能翻譯的軟件,還能收集翻譯錯誤的標語及位置,反饋給相關負責的部門,推動後續的修改;再增加一個審覈端口,讓專業的人士、志願者、相關部門對報錯進行審覈,鼓勵用戶更積極地去發現和反饋錯誤,形成一個激勵循環。

這個想法得到了導師周棟的肯定。周棟是王晨旭所在的信息學院智能信息處理實驗室導師,也是信息學院軟件工程系教授。

一個App如何準確地識別出標語中的翻譯錯誤,並對識別出的錯誤進行有效的糾正?周棟建議他直接使用大模型:在系統內搭建一個智能體,讓它來完成具體的操作,可以大幅簡化研發的過程,“既然模型能夠進行糾錯,那麼我們可以將其應用在報錯端口,也可以用在審覈環節。”

跨界團隊 手工標註3000條標語 自己研究算法

“我需要一支英語翻譯、計算機技術都很強的團隊。”王晨旭組建的團隊共有五個人:一部分同學負責製作App、優化算法、設計界面、開發前端後端等;另一部分負責收集並整理包含大量廣州公共標識及其規範英文譯寫的平行語料庫,要對文化娛樂、旅遊、交通、教育、醫療等十個公共服務領域的標語進行翻譯和糾錯。“團隊裡,有高級翻譯、漢語專業的同學,他們手工標註了三千條左右的標語。”王晨旭介紹。

王晨旭負責的是算法研究。在查閱大量文獻綜述,瞭解一些主流方法和技術後,他發現公共場所的標語翻譯這個分類太“小衆”,沒有現成的代碼能實現這個功能。“我只能自己研究。”大二時,學校課程對大模型算法的涉及還比較少,王晨旭覺得“很晦澀,得生啃。”抱着電腦一頭埋進實驗室,用大量課餘時間和週末節假日來學習。

團隊找到高翻學院的學生,收集反饋需求,最終達成一致:以“翻譯爲主,糾錯爲輔”的方向推進,即在翻譯模塊中嵌入輕量化的糾錯功能,通過預處理實現基本的語法與拼寫檢查,同時將重點放在優化多語言翻譯的準確性與流暢性上,確保翻譯結果貼合語境和文化背景。

“AI是勢不可擋的。”一個跨學科跨專業的五人團隊,歷時9個月,基於AIGC打磨AI作品,王晨旭感慨道。最終,《基於生成式人工智能的廣州市標語翻譯與糾錯系統》獲得了2024年廣東省大學生計算機設計大賽一等獎(軟件應用與開發),2024年中國大學生計算機設計大賽二等獎。

除了希望項目能推廣出去,對城市語言景觀的治理出一份力,王晨旭表示將繼續尋找更多算法,去解決現實生產生活中的問題。

寄語

周棟 廣外信息科學與技術學院軟件工程系教授

對學生:非常有活力、有特色,是一個融合AI人才、語言人才等具有廣外特色的跨學科團隊。

對作品:兼具實用性和公益性。生活中,標語錯誤無處不在,但缺乏發現渠道和上報渠道,這個作品在目前市場上是稀少的。廣外信息學院一直在做多種小語種的語料庫,希望未來實驗室的同學們可以把這些內容集成到大模型裡面去,也希望這個系統能落地轉化爲成果,真正產生經濟效益、社會效應。

總監製:戎明昌 劉江濤

監製:王佳 田霜月 李陽

策劃:陳實

統籌:歐陽雲蔚 李芷琪 吳鈺華 任磊斌

採寫:南都記者 李芷琪 楊景博 潘欣

攝影:張志韜 馮宙鋒

設計:劉妍妍