作業幫,一家科技公司

(原標題:作業幫,一家科技公司)

“7歲了,繼續奔跑。”1月15日,作業幫創始人、CEO侯建彬在朋友圈裡感慨。

過去一年,作業幫發展尤其迅速,一年拿到兩輪融資,給原本熱鬧的K12在線教育市場再添了一把火。

2015年的時候,作業幫還是一個很小的APP,團隊也很小,一張照片就放得下。6年後的今天,作業幫已經成爲中國唯一月活用戶過億、唯一進入全網top30的教育類APP,員工總數超過35000人。

作業幫團隊.2015年

K12在線教育正身處風口。iMedia Research預計,政策利好、技術成熟的推動下,2020市場規模達4858億元,增速202%。也是在這樣的背景下,在線教育行業迎來了密集融資。網經社“電數寶”電商大數據庫顯示,2020年在線教育行業共發生110起融資,融資額超540億元,其中,作業幫就佔了約30%。

市場競爭激烈,人們叫得上名字的應用就有數個,但持續佔據頭部的不多。作爲成立僅僅5年的在線教育公司,作業幫究竟憑什麼能一路高歌猛進?

前特勞特中國公司高級諮詢師顧均輝認爲,關鍵就在於作業幫對拍照搜題的聚焦。“這一技術突破直接關係到用戶體驗,也對同類產品帶來了‘降維打擊’。作業幫從而一躍成爲師生與家長心智中最好用的搜題品牌。”

作業幫入局前,在線教育市場競爭就已相當激烈。但通過聚焦拍照搜題,作業幫在已經相對成熟的市場中出奇制勝,成爲K12在線教育市場的一匹黑馬。而且,6年來,不斷完備的拍搜技術體系,在作業幫的各個業務環節中發揮了“槓桿”作用,爲其後續發展打下了堅實的基礎。

01一個super機會

時間回到2013年,這是K12教育行業的一個轉折年。

這一年,辭去世紀佳緣CEO的龔海燕創辦的梯子網吸引了大衆的關注,也攪起了BAT對在線教育的好奇心。

彼時,在百度內部,百度知道的負責人侯建彬發現,K12領域的提問量佔到了搜索總提問量的10%。他隱約覺得,這是一個巨大的需求,可以支撐起一個獨立的APP。

2014年1月,作業幫正式上線。基於百度知道的積累,作業幫首先推出以問答和圈子爲主的UGC社區。但運行一段時間後,問題也開始顯現,問答質量不高,時效性得不到保證,這對正在做作業的提問者來說並不方便。

龔海燕曾表示,自己做梯子網,是想要給教育資源薄弱的地方搭起一座梯子,從而改變學子的命運。梯子網選擇的是做社區,吸引老師、學生入住的模式。但後來事實證明,這一模式缺乏商業支撐。

此時,K12正處於題庫創業高峰期。猿題庫、學霸君等在題庫的基礎上,根據用戶的需求開始推出了拍照搜題功能。

“拍題是一個super的機會。”侯建彬判斷,拍題是可以做到日活千萬級以上的,而且它重新開闢了一個之前從來沒有存在過的、線上的學習場景。

市面上的一些創業公司希望採用拍照搜題的方式,幫助用戶解決實時性的問題,但是,由於技術的原因,此時的拍照搜題的效率和準確率都不高。

拍照捜題準確率提升的關鍵,在於題庫的積累以及成熟的OCR(光學字符識別)技術。在這兩方面,百度都有一定優勢。侯建彬認爲,這是作業幫的機會。

2015年1月19日,在作業幫上線一週年之際,帶有拍照搜題功能的4.0版本正式上線。當天,它的活躍用戶數第一次超過了100萬。

作業幫的B輪投資人,GGV紀源資本投資副總裁於紅說,當時市面上,K12有很多種模式,但她篤定作業幫拍照搜題是流量入口的路徑是對的。

拍照搜題功能上線的同時,市場上也有很多質疑的聲音,認爲是在變相幫助孩子抄作業。

“最早所有人都會有這個困惑。我一開始也想,我們做拍照搜題這個東西是不是就是給人抄答案的?因爲動機給人感覺不是那麼的正向,都不想堅持去做。”作業幫拍照搜題的負責人王巖說,爲此他們特地做了一次用戶調研。

他們打了很多電話,調研用戶的學習情況。結果出乎意料,他們發現,絕大部分用戶都是成績中等偏上的學生。真正成績差的學生,他們要麼不寫作業,要麼抄現成的,根本不會費事去使用作業幫。

“它是真正有教育價值的。對於大部分想通過教育改變人生的學生們,拍搜上的解析、視頻等在線資源,是一個非常寶貴的信息來源。”王巖堅信,作業幫對於更廣大希望學會知識的同學帶來的益處,是遠遠大於其可能帶來的弊端。

而爲了避免學生們只是用來抄題,作業幫的拍搜也做了很多特別的設計,比如絕大多數題目都提供詳細的解析,不是隻能看到答案;利用智能算法對用戶疑似僅僅看答案的行爲,進行一些提醒和數量上的限制。

今天,很多學生在做家庭作業時,遇到不會做的題目,不用再等着“問老師”,而是打開諸如作業幫這類的App,給題目拍一張照片。數據顯示,全國每10個孩子就有7個在作業幫學習。

“我自己沒念過幾年書,我希望我兒子不要走我的老路,能夠好好讀書,改變命運。”王建坤對《商業與生活》說,現在孩子上小學5年級了,老師留家庭作業他已經輔導不了了。每次孩子遇到不會的題目,都是用作業幫的拍照搜題,自己給孩子批改作業也離不開這個軟件。

拍照搜題已經成爲學生們的一種主要學習方式,在一定程度上給教育資源薄弱的學生搭起了一座梯子。

02“不那麼性感”的改進

5年前,多個創業團隊都曾殺入拍照搜題領域,也受到了學生們的追捧。但如今,這些創業團隊都已經在業務上分道揚鑣,沿着各自的路徑越走越遠,只有作業幫守住了這個優勢。

目前作業幫旗下產品累計激活用戶超8億,總日活用戶超過5000萬,總月活用戶超1.7億,佔據了中國K12在線教育流量側75%以上的份額。作業幫APP也是中國唯一月活用戶過億、進入全網top30的教育類APP。

羅馬不是一天建成的,作業幫的拍搜優勢,則是靠一行行代碼積累起來的。

“我在作業幫的前三個月,比我在百度4年寫的代碼都多。”作業幫智能技術實驗室負責人王巖說。王巖主要負責作業幫拍照搜題,拍照批改,題庫等一些業務的技術工作。

起初,作業幫用的還是第三方服務的OCR接口,這個接口最大的問題就是速度慢,識別一張圖要10秒。

作業幫提出希望能夠把識別的速度加快。但對於一家大型服務供應商而言,作業幫只是一個小項目,根本不重視它的需求。但作業幫自己清楚,識別的效率就是公司的生死線,於是決定放棄使用第三方服務,自己研發拍搜系統。

2015年4月,侯建彬提出了“攻克天王山”,要把識別的時間從10秒到3秒。當時,公司裡並沒有專門學過圖片識別的員工,任務就被分到了王巖和程童所在的團隊。

王巖坦誠,一開始,他們並不具備提升識別速度的能力。在使用第三方服務的OCR接口時,他們爲了減少用戶等待焦慮的問題,甚至做了一個“虛假”的進度條,第一秒就進行到90%,剩下的10%慢慢走,讓用戶覺得馬上就能出結果了。或者故意把照片旋轉的過程設計的比較慢,讓用戶覺得是自己手機反應慢的問題。這也是他們當時唯一能想到的辦法了。

由於之前沒有相關的經驗,王巖的前期效率非常低,基本上每天都要把前一天寫的代碼全部推翻重新寫。那段時間,他們做得非常辛苦,將近兩個月的封閉時間,他們一週六天,每天都工作超過12個小時,一邊學習一邊摸索,終於做了出來。

這一飛躍給了團隊極大的信心。隨後,作業幫進一步成爲業內第一家把識別響應優化到1秒的公司。時效和體驗,一舉奠定了作業幫在同類產品中拿下第一,並將這一流量優勢持續到了今天。

一行行的代碼,一點點的提升,這不是一個像融資,像市場推廣那樣有性感故事可講的過程。這更像是一個枯燥的自我折磨。

但在侯建彬看來,就是這個看起來不那麼性感的改進,起到了非常關鍵的作用。教育產品的增長還是要看口碑,用戶在意的是服務的質量。面對激烈的市場競爭,作業幫要保證優勢的唯一辦法就是要做到,人無我有,人有我優。

03海平面下的技術進階

一個典型的小學數學題,識別起來並不複雜。一個熟悉計算機視覺和深度學習的學生利用公開的資源和一些數據集,就可以搭出來一個系統。

但是,當用戶上了規模,需求和場景就變得複雜,何況作業幫累計激活用戶設備超過8億。

由於人們的拍攝環境,拍攝的題目,乃至使用的設備,都是五花八門的。有的拍的模糊,有的燈光昏暗,還有的題目上已經被寫滿了草稿,這都給拍搜系統提出了挑戰。

市面上很多同類軟件,或多或少都會出現答案和所拍照片題目不一致的現象,反而浪費了學生的時間。

作業幫的拍搜系統,基於OCR和深度學習技術的結合,經過持續6年的自主研發和數據積累,目前擁有多項OCR、檢索和系統專利,功能也在不斷拓展,從最初拍單題,拍整頁,再到猜你想拍,從搜索答案,到批改,再到打分。數據顯示,其小學數學作業的批改整體準確率已經達到98%,而且最快1秒出結果。

人們看到的結果,往往只是冰山一角。海平面則是龐大的技術、數據支撐。

程童在作業幫還在百度內部孵化的時候就選擇了加入,參與了作業幫拍題搜索系統從0到1的搭建過程。據他介紹,拍搜算法架構比較複雜,主要分爲OCR和檢索兩個部分。

其中檢索系統主要任務是通過識別出的文本檢索答案,由上至下依次包含接入和策略層、正排系統、倒排系統和離線建庫四個主要部分,整體是一個由很多模塊組成的複雜系統。而OCR系統主要是將所拍照片內容識別成文本,主要是由多個策略&預處理模塊,以及大量使用GPU作爲運算設備的深度學習在線推理服務組成。

針對不同用戶使用場景下可能出現的模糊、傾斜、低像素、干擾等等各類拍照問題,作業幫不斷進行算法迭代和架構完善。現在,在一次完整的文字識別流水線裡,會有超過30種不同的神經網絡各司其職,運行260次以上的神經網絡預測。而通過構建大規模的並行GPU集羣,這樣一次比較重的識別流程,平均只需要200毫秒。對於識別出的題目內容,則會在索引量超過3億的題庫搜索引擎中進行匹配,確保給到用戶的信息儘可能準確。

程童說,過去六年,作業幫的拍搜系統一直都在變化。

早期,因爲大家識別響應普遍都慢,誰能把響應時間縮短,誰就能夠贏得用戶的青睞。當快到一定程度,準確率又成了一個關鍵點。準確率越高越容易形成口碑傳播。

當時,大家都使用CPU服務器跑算法模型,性能低耗時長。作業幫率先將GPU用於在線推理服務,預處理的部分交給CPU,深度神經網絡則利用GPU強大的並行運算能力去計算,上線後就取得了10倍的加速效果,實現了“隨手一拍,秒出答案”。

進入2017年前後,隨着原有業務流量迅速上漲,算法模型的種類和數量的不斷增加,給開發和運維上帶來了更大的壓力。

“業務做不起來,系統做的再漂亮也沒有意義。”程童說,爲了讓模型快速上線,他們上線了很多臨時方案,但也讓他們的系統管理運維的包袱越發沉重。

雖然業務優先,但程童知道,如果任由系統退化下去,不但自己會疲於奔命到處救火,最終也會影響業務發展。所以在項目間歇期、流量低峰期,拍搜團隊都會見縫插針進行系統優化,減少技術債務。比如,針對環境異構的問題,他們通過升級接入層,優化自研rpc(遠程過程調用)客戶端,滿足多機房,多機型負載均衡以及實驗分流的需求,使得流量的接入幾乎可以無視機型機房的區別。

現在,隨着業務相對成熟,系統成長到了一定規模,他們重新審視之前系統發展過程中的各種問題,深挖本質,最終選擇了通過虛擬化的方案予以解決。遷移後,通過更細粒度的資源分配和服務混部,一些集羣最多節省了50%的機器資源。而通過遷移獲得的彈性伸縮能力,也讓拍搜系統在應對流量高峰的時候更加遊刃有餘。

“我們對指標的要求一直在提高,原來是到90%,後來到95%,再到99%。難度是在於準確度不停的往前探索,我們的基礎提高以後,你想再前進一步,難度會是指數級別的增加。”程童說。

04做一家教育科技公司

2015年6月,作業幫從百度正式分拆出來,新公司取名爲“小船出海” 。當時,侯建彬通過各種關係終於找到了有教育背景的所暉,希望他能出任聯合創始人。所暉問了他一個問題:作業幫是想做一家“教育”公司,還是“科技”公司?

“做教育科技公司”,侯建彬當斬釘截鐵地回答。

談到教育創業,也許有人認爲,要想做得好,只需要打造優質師資團隊就足夠了。這種想法顯然忽略了一個關鍵,在線教育與傳統教育最大的不同,就在於技術的力量。

通過用戶的拍照搜題內容,作業幫還會通過大數據算法來分析重點、難點和全網的學習進度。比如,他們發現山東濰坊的學生,花時間最多的是“多項式乘多項式”這個知識點,而在陝西西安,花時間最多的知識點是“平行四邊形的判定”。這樣一來,就可以針對不同城市的學生,提供出更加有針對性的課程或是學習工具、學習資料,集中力量解決難點,使得更多的學生受益。

而作業幫正是憑藉着人工智能、直播、5G、大數據等技術的賦能,爲教育創造更多可能的同時,也從一衆競爭者中脫穎而出。

現在,作業幫已經做了五六年的拍照搜題了,不僅佔據了在線教育最大的流量入口,也爲旗下繼續孵化出王牌業務在線直播課持續提供轉化學員。王巖相信,基於前面的積累以及人工智能技術的不斷髮展,未來的解題和在線學習,一定可以走出題庫,通過理解背後的知識,自動解題,甚至會生成講解視頻和課程幫助學生進步。

曾經,融資後,有人問侯建彬,你們也做了很多AI的事情,爲什麼都沒有提到說你們是AI+教育公司。侯建彬說,“我怕大家以爲我們跟那些炒概念的公司是一樣的,沒必要提。”

技術永遠是爲業務和需求場景服務的。作業幫沒有刻意談過AI,但十分看重用戶第一。16億美元的E+輪融資,也再一次證明,科學技術本身沒有溫度和創造力,而真正煥發無窮力量的是產品。

對作業幫而言,拍照搜題的提出,是迎合AI時代對教育的一種創新。而拍照搜題也爲計算機視覺技術以及人工智能技術的落地提供了良好的落地契機,爲傳統教育的改革帶來了新的方向。