流利說張瀟君:引入谷歌工程實踐,讓流利說在人效上更接近硅谷

張瀟君現任流利說(NYSE: LAIX)首席算法架構師,TGO 鯤鵬會上海分會的會員,目前全面負責流利說的對話系統。張瀟君與計算機結緣是在上海交大的 ACM 試點班,熟悉 ACM 班的人都清楚,ACM 班的名字源於國際科學教育計算機組織——美國計算機學會(Association of Computing Machinery),它是世界上第一個,也是迄今爲止最有影響的計算機組織,計算機領域最高獎——圖靈獎,就是由該組織設立和頒發的。這寓意 ACM 班旨在培養計算機科學家。

張瀟君 | 流利說首席架構師
TGO 鯤鵬會上海分會會員

張瀟君的計算機之路就是從這裏開始的。讀本科時,張瀟君憑藉優異的表現進入了微軟亞洲研究院實習,從事 NLP(Natural Language Processing) 項目研究;研究生的階段又去了德國人工智能中心讀計算語言學,一步步紮實地打穩了自己的專業能力;畢業之後他加入谷歌瑞士,迅速提升了自己的代碼編寫和系統工程的能力。

2017 年,張瀟君回國發展,並加入流利說,引入了諸多谷歌工業規範和最佳實踐,並致力於用 NLP 的方法改變語言教學的模式。

參與世界上最複雜的系統

從張瀟君的經歷來看,學生時期已經在計算機語言領域積累了大量實踐經驗。於是,畢業之後張瀟君獲得了去谷歌瑞士工作的機會。谷歌瑞士辦公室是一個比較特殊的地方,作爲歐洲最大的研發中心,谷歌瑞士辦公室網羅了歐洲幾千名工程師精英,業務組也非常多。谷歌的老牌組,包括:廣告、Youtube、 搜索、地圖、助手等都有龐大的部門。張瀟君有幸加入了廣告組,從事商品廣告 Campaign 後臺管理。

谷歌廣告部是一個龐大的部門,張瀟君作爲其中一員,早期專注在商品和廣告的數據模型構建以及數據整合的工作,後期專注於廣告在其他平臺的輸出,比如 Youtube、Gmail 等。這些工作聽上去並不複雜,但是因爲量級巨大,稍有差池都是上百萬美元的差距,所以對工程的要求極高。這對張瀟君來說挑戰巨大,以早期的商品廣告 Data Integration 系統爲例,它每天需要處理上十億級別的 Campaign 更新。 即使用 Map-Reduce 每天若干次更新數據,仍然有若干小時的延遲。但在張瀟君的主導下,這個系統變成了流式的系統,大大縮短了 Campaign 的生效時間,使得系統對數據的吞吐量、有效性和延遲都達到了相當高的標準,並且有強大的 fault-tolerance,不需要工程師參與後期維護。

在谷歌瑞士張瀟君參與並貢獻了構建世界上最複雜系統的工作,“在這些系統的構建過程中,小到工程代碼和規範,大到系統結構和業務理解都得到了很大提升,對我的個人成長幫助很大。 ”

在谷歌這樣偉大的企業工作三年之後,張瀟君意識到:在這樣一個工程師的天堂,雖然個人能力提升很快,但是因爲機構過於龐大,導致產品上線流程略長,極其考驗人的耐心,成就感也會比較延遲。其實,張瀟君在加入谷歌之前,也拿到了硅谷獨角獸 startup 的 offer,雖然當時沒有去,但心中埋下了對創業公司的情節,張瀟君一直想體驗 “Move Fast and Break Things ”的節奏,所以回國之後他選擇了創業型企業流利說。

文化的誘惑與專業的契合

加入流利說之前,張瀟君花了很長時間來深入瞭解流利說。除了與流利說的三位創始人王翌、胡哲人、林暉一一溝通,張瀟君還與技術部的幾個 Team leader 也聊過。從產品角度看,張瀟君非常認同流利說用 NLP 技術來做教育這件事情,“因爲教育本身就有很多重複性的工作,在交互時對學生語言的識別、理解以及和教研、知識點推薦的結合非常緊密,確實能夠用 NLP 的技術來做非常大的推動,甚至是改革。”除此之外,張瀟君也在溝通中發現了流利說濃厚的硅谷工程師文化,他認爲流利說是爲數不多的值得加入的創業型公司。

在張瀟君看來,硅谷的工程師文化體現在很多方面,整個產品從設計到執行到測試再到上線的流程已經界定的非常清楚,但由於國內很多企業只一味地追求速度,並沒有很好地實踐。這就導致整個產品流程存在很多問題,產品迭代起來非常困難。

“但流利說在這方面做得非常好,在很多地方都實行了相當嚴苛的規範。”在經過深思熟慮之後,張瀟君決定加入流利說,擔任流利說首席算法架構師。

將谷歌的工程實踐引入流利說

加入流利說之後張瀟君開始發揮自己的優勢,將之前的工程實踐引入流利說。 比如 Bazel 作爲 build 工具,使得流利說成爲國內爲數不多的引入 Bazel 的公司。雖然 Bazel 在谷歌內部是非常高效且完備的工具,但對工程師的要求也比較高。如果沒有紮實的工程背景,一下子從其他 Build 工具,比如 CMake 或 Maven 遷移到 Bazel,會有較大的不適應;另一個問題是網絡環境的差異使得 Build 過程比較緩慢,會影響工作效率。

爲了解決這些問題,張瀟君和另一位前谷歌工程師花了很多精力。比如,建立和維護屬於流利說的 Bazel 依賴庫,並且針對網絡做各種優化;建立 Codelab 和培訓講座,讓工程師們從入職的第一天就開始熟悉這些工具;提供代碼樣例,將 Bazel 工具無縫整合到現有的 CI/CD 流程中。 除了 Bazel, 張瀟君也大力推動了谷歌的其他成熟工具, 例如 Kubernetes, Docker, gRPC 的運用和普及。

工程實踐也離不開日常工作的規範。 比如在每次代碼提交都有 Code Review,添加覆蓋良好的自動測試,有自動化的 CI/CD,上線之前也有非常嚴苛的上線服務規範,上線之後也有系統能做 A/B 實驗對比。

除了工程上的規範,算法的迭代也很嚴苛。流利說擅長從真實的用戶數據找到痛點在哪裏。比如爲了解決一個真實的用戶問題,上線一個初代模型,先收集用戶的數據,再進行標註,迭代模型,驗證想法再重新 A/B 上線,從而形成一個良好的“數據 – 算法”的迭代反饋鏈路。

“這些其實都是非常成熟的算法和工程實踐。我們希望國內工程師能在人效上更加接近硅谷的公司,打造優秀產品的同時能形成良好的文化和氛圍。”張瀟君告訴 TGO 鯤鵬會記者。

結語

目前,張瀟君在流利說負責構建對話系統。對話是教學的常用手段,通過對話做知識點的教學、情景的演練、提升口語和交流功能;同時對話也是人機交互在探索的全新方式。 張瀟君和團隊開發的功能分佈在流利說各個產品線中,同時,他們也在研發獨自的產品,希望能通過流利說把更多成熟的 NLP 黑科技帶給用戶,產生價值。

“對話系統作爲自然語言處理的一個子領域,是一個綜合了各個 NLP 任務,並且和內容的生產迭代有密切聯繫的複雜系統。它在學術領域的研究方向和工業領域的實踐應用有比較大的鴻溝,需要我們的科學家 / 工程師們和產品經理、教研以及內容生產方一起協作,才能做出讓用戶滿意的落地產品。我們也希望有更多相關領域的專家能加入到流利說,爲下一代教育產品的構造一起努力。”張瀟君最後對 TGO 鯤鵬會記者說道。

Q&A

TGO 鯤鵬會:您早年在微軟亞洲研究院和德國人工智能研究所的經歷,是否和在流利說這樣的 AI 創業公司的工作內容很不一樣?合作模式與團隊思路上有何異同?

張瀟君:前兩家研究機構都是吃皇糧、搞研究的地方。做的事情都超前,但是對產品化沒有壓力,好比之前我在 MSRA 參與了構建基於大量用戶數據的問答系統,更多的是從算法和數據本身解決一些開放問題,最後這個研究工作本身做得還不錯,最後被 Bing 用上了。 德國人工智能研究中心也比較偏研究,當時參與過 EuroMatrixPlus 項目,做歐洲多個語言的翻譯系統,顯然離產品化比較遠,更多的是對學術的探索。

相比之前,流利說的算法團隊非常產品導向,如果不能產品化,我們認爲這些工作就沒有意義。所以在流利說,更多的是用成熟的技術爲教育產品賦能。 相比之前總是和研究員、工程師有交集,在流利說我們和產品經理、教研、內容、數據、運營甚至客服團隊都有非常密切的合作。

TGO 鯤鵬會:在谷歌和在流利說,作爲技術人您感受到哪些比較大的差異?可以舉例說明嗎?

張瀟君:谷歌在大範圍解決問題,因爲掌握世界上體量最大、地域跨度最廣的流量,所以處理的工程和算法問題的思路和方法都比較大格局,在某一個點上解決比較細緻的問題,能獲得很大的收益。流利說是把針對中國人的教英語做到極致的地方,所以相對垂直。

TGO 鯤鵬會:除了技術,對於將 Google 這樣的世界級軟件企業的工作思路、工作模式引入國內,有哪些心得?這些方法取得了哪些成果?

張瀟君:因爲幾位創始人也是 Ex-googler, 所以我們的工程和算法團隊基本照搬了之前的模式,比如 Bazel Build, 自動化 CI/CD、微服務化、K8S 部署。工程實踐上我們有嚴格的 code review,上線遵從嚴格的規範。算法實踐上我們遵從數據驅動的原則,從真實的用戶數據出發,建立 benchmark,迭代模型,再收集數據回饋,並形成閉環。工作模式上我們從上到下實施 OKR,每天都有非常明確的目標,和之前不一樣的是,流利說的變化比谷歌要大很多,所以我們也常常擁抱變化,在實施期間做動態的調整。成果是長期的,雖然可能比其他公司“快糙猛”的方式相比,當下消耗更多時間,但是長期來看,對項目迭代和業務發展都有很好的支撐。


TGO鯤鵬會,是極客邦科技旗下高端技術人聚集和交流的組織,旨在組建全球最具影響力的科技領導者社交網絡,線上線下相結合,爲會員提供專享服務。目前,TGO鯤鵬會已在北京、上海、杭州、廣州、深圳、成都、硅谷、臺灣、南京、廈門、武漢、蘇州十二個城市設立分會。現在全球擁有在冊會員 800+ 名,60% 爲 CTO、技術 VP、技術合夥人。

會員覆蓋了 BATJ 等互聯網巨頭公司技術領導者,同時,阿里巴巴王堅博士、同程藝龍技術委員會主任張海龍、蘇寧易購 IT 總部執行副總裁喬新亮已經受邀,成爲 TGO 鯤鵬會榮譽導師。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章