DataPipeline CTO 陳肅:我們花了 3 年,重新定義數據集成

近日,TGO 鯤鵬會DataPipeline CTO & TGO 鯤鵬會北京分會會員陳肅進行了專訪,他談及了 DataPipeline 的發展情況、數據應用集成行業、公司管理和個人經歷等,以下爲採訪實錄:

隨着數據體量增大,更多企業意識到數據的重要性,開始注重數據,想要利用好數據。但現實情況是,重複和冗餘的 IT 和應用程序基礎架構導致成本增加;數據可信度和質量降低,阻礙了數據分析提供的價值和能力;影響端到端用戶的體驗等等。這不僅阻礙了數據的自由流動,更將數據分析引導決策扼殺在搖籃之中。那麼如果想要做到精細化管理,挖掘大數據背後隱藏的價值,我們就必須打破數據孤島。

目前,中國企業在大數據流通、交換、利用等方面仍處於起步階段,但是企業應用數據集成市場卻是龐大的。根據 Forrester 數據看來,2017 年全球數據應用集成市場純軟件規模是 320 億美元,如果包括人工在內,將達到 3940 億美元。

在數據應用集成領域中,既有 Oracle、SAP、微軟、Informatica 等傳統的 IT 大佬,更有衆多的創新型企業,其中 DataPipeline 就是一家通過提供批流一體的數據融合、數據清洗、數據同步等服務,幫助企業連接內外部數據孤島,實現數據交換與融合的公司。

一、打破數據孤島,重新定義數據應用集成

TGO 鯤鵬會:請您詳細介紹目前 DataPipeline 的主要戰略和市場佈局?

陳肅:DataPipeline 的目標客戶集中於金融、零售、製造,地產、互聯網行業,服務客戶主要具備以下特徵:大中型企業、數據價值密度較高、重視數據的時效性。

差異化戰略包括:

1、支撐有大數據應用需求的大中型企業;
2、應用可以部署在雲上;
3、實時性要求高,與以前批量化的不太一樣;
4、能夠支撐業務、數據、架構的變化;
5、用戶體驗方面,更強調自動化、智能化。

TGO 鯤鵬會:DataPipeline 所處賽道是數據應用集成,您是如何理解這個行業?

陳肅:目前,中國企業在大數據流通、交換、利用方面大部分還處於起步階段,關鍵原因是沒有做好數據集成、數據清洗、數據同步等基礎工作。

我認爲,接下來數據應用集成未來會產生 3 個變化:

第一,相較過去而言,會變得更加複雜。原來可能只有一些數據庫中的結構化數據,但是現在有結構化、半結構化、非結構化數據,雲上、雲下、混合雲的途徑,數據庫和數據倉庫的對象存儲等。

第二,時效性更強。以前數據流轉比較慢,商業整體運轉的速度也會慢一些,但隨着企業實時決策要求的提高,我們需要根據數據做到及時分析,因此時效性要求也隨之提升。

第三,高擴展性、靈活變化。隨着社會的快速發展,業務部門對數據的需求也在時刻變化。這就意味着用戶的 IT 架構、軟件和整體發展戰略都需要適應這種變化。

複雜度變高,時效性變快,架構變化的程度加深,是數據使用面臨的三大挑戰,但相應地也會產生一些新的機會。

TGO 鯤鵬會:您認爲數據應用集成有多大的市場規模和潛力呢?

陳肅:Forrester 數據表明,2017 年全球數據應用集成市場純軟件規模是 320 億美元,如果包括人工在內,將達到 3940 億美元。

Gartner 數據也表明,應用數據集成的細分領域 iPaaS 在 2017 年首次突破了 10 億美元,增長 72%。

TGO 鯤鵬會:當前數據應用集成賽道有哪些競爭對手呢?競爭焦點主要聚集在哪方面呢?

陳肅:參與市場競爭的企業很多,在數據應用集成領域,既有 Oracle、SAP、微軟、Informatica 等傳統的 IT 大佬,也不乏一些創新型企業。但相對新一代雲化、大數據實時化的數據應用集成方面來說,新玩家偏少。在中國,數據應用集成企業實際上是比較缺失的。

目前,在數據應用集成這個賽道,一些企業偏重數據集成,一些偏重應用集成。還有一些諸如阿里這樣做數據中臺的企業,他們的覆蓋面與創新企業相比更爲廣泛,其中或多或少都會有一些差異化,而在基礎技術創新方面的企業數量更少。

另一方面,市場上也有一些應用長達 10 年的工具,它們都是基於傳統的軟件架構;而新出現的工具則偏雲化,主要部署在雲上,以分佈式架構支持大量數據和實時應用的工具還是比較少的。

TGO 鯤鵬會:您認爲 DataPipeline 的主要優勢體現在什麼方面呢?DataPipeline 採取了哪些戰略?目前達到了什麼樣的效果呢?

陳肅:在技術上,DataPipeline 聚焦流式數據處理、高性能同步,快速解決數據融合問題。

在產品上,DataPipeline 是一家爲企業提供批流一體數據融合服務的公司。通過提供數據的批流一體處理、任務調度、數據質量管理、可視化運維與監控、API 數據接入、元數據管理等功能,幫助客戶更敏捷、高效地實現複雜異構數據源及目的地數據融合等綜合服務,爲客戶靈活的數據消費需求提供強有力的技術驅動。

DataPipeline 已經成功服務了星巴克、喜茶、叮噹快藥等多家行業領先的企業客戶,同時與數十家產業上下游合作伙伴建立了戰略合作關係。

TGO 鯤鵬會:DataPipeline 下一步的規劃是什麼呢?

陳肅:會繼續堅持既定的策略,以技術驅動來服務客戶,同時會持續投入資源在客戶成功上,爲客戶帶來更大的價值。

二、平時多流汗,戰場少流血

TGO 鯤鵬會:目前您在團隊中打造什麼樣的團隊文化,或者說有什麼樣的團隊氛圍及規則?

陳肅:DataPipeline 有明確的企業核心價值觀,總結下來是客戶成功和個人成長,具體有六條——即不忘初心、深挖本源、客戶第一、言出必果、技術驅動、無私分享,技術團隊的文化和這六條核心價值觀一脈相承。

作爲一家 ToB 企業,我們首先強調客戶第一原則。運維、測試、開發都要把定位和解決客戶問題放在自己工作的最高優先級。爲了減少對日常研發工作的干擾,我們建立了輪崗制度,保證每週都有一個專門的團隊來應對客戶的支撐需求。客戶環境是複雜的,有時候值班同學會遇到難以解決的棘手問題。無論何時,只要值班同學將問題拋到 On Call 羣裏,公司的技術骨幹會立刻進行問題會診、及時給予應對策略和建議,甚至立刻遠程接入客戶現場協助定位問題。當然,熬夜加班總歸是不好的,所以我們有完善的倒休制度,保證員工身心健康。

我們每週至少會有一次團隊的內部分享,分享內容可以是技術趨勢、工作中的設計心得和技術點,也可以是健身技巧和旅遊經歷。一些較好的技術主題,經提煉後會由團隊成員去開源社區的 meetup 進行分享。

我們強調技術驅動,只有能夠通過程序解決的問題就不要採用“人肉”的辦法,因此測試和運維團隊的同事有很大一部分工作也是寫代碼,通過自動化測試和自動化運維來提升效率。如果研發和測試中遇到問題,我會鼓勵他們儘可能地找到根本原因,用優雅的方式徹底解決問題。正所謂平時多流汗,戰場少流血。

TGO 鯤鵬會:您在招聘過程中更看重成員哪些方面?

陳肅:面試時候主要看技術深度和理解力。

一般來說,求職者如果有好的學校背景,通過面試的概率要高一些,但我們也不是隻看學校背景。面試過程中,求職者研發經歷的真實性、體現出的技術深度、是否有關注技術論壇和閱讀開源項目源碼的習慣,這些都是我們着重考慮的點。

試用期的員工,我們會重點考察分析解決問題的能力以及抗壓能力。

TGO 鯤鵬會:您是如何對團隊成員做激勵?激勵的措施主要有哪些?

陳肅:2018 年初,我們建立了季度之星評選制度,旨在獎勵每個季度做出突出貢獻或取得顯著進步的員工。在過去一年多時間裏,獲得季度之星的員工既有早期的技術骨幹,也有新加入同事。我們通過這種形式選拔優秀的人才,賦予更多的責任,給予相應的回報。

隨着公司人員的增長,我們在今年引入了績效考覈,以結果爲導向評估員工的實際產出,作爲晉升和調薪的主要依據。

技術人員選擇一家企業,除了收入因素外,技術上的成長性也是重要的考量。DataPipeline 鼓勵員工積極參與開源項目的研發,給予員工專門的時間做開源相關的工作。公司也樂於投入資源舉辦或參加技術論壇,讓員工和領域內的高手交流,這也是大家覺得公司技術氛圍很好的重要原因之一。

TGO 鯤鵬會:您平時會鼓勵團隊成員進行創新嗎?主要是通過什麼樣的方式呢?

陳肅:創新是 DataPipeline 在競爭激烈的數據集成市場的生存之本。

我們公司的產品是基於開源框架 Kafka Connect 做的產品,爲了適應業務需要,我們在這個開源框架基礎上做了大量的改造和特性增強,包括端到端數據同步一致性、批流一體、源變化檢測和自動適配,優化了框架的任務調度機制。

任何團隊成員,只要有好的想法或者發現值得改進的點,都可以自由組織討論會,邀請相關同事一起論證方案。當方案通過後,會根據優先級進行排期,納入研發計劃。我們特別重視員工自己提出的優化點,在評選季度之星和績效評估時,我們也會優先考慮作出過這方面貢獻的員工。

三、理解客戶核心需求,尊重行業發展規律

TGO 鯤鵬會:能分享一下您的創業經歷嗎?在創業過程中,您印象最深刻的是什麼事情?從中有什麼收穫嗎?

陳肅:2010 年,我從中國科學院博士畢業後,第一份工作是在中國移動研究院做精準營銷平臺的算法工程師,後來逐步升任項目經理、用戶行爲實驗室技術負責人。

2015 年初,我離開了中國移動研究院,和朋友開始了第一次創業。我們做了一家在線教育公司,主打英語培訓,最初的想法是希望用機器學習技術,幫助用戶提升學習效率。公司從 36 氪孵化器起家,獲得天使輪融資,成爲第二期畢業企業。

在初期,爲了獲取流量,我們嘗試了做一些引流功能,例如實時的托福考位查詢和考位預定。靠着這些引流應用,我們的用戶日活增長很快,應用程序在 App Store 和主要國內 Android 市場的細分品類下的排名也長期位於前列,因此順利拿到了 A 輪融資。

A 輪之後,我們開始做流量轉化,開發了一系列付費課程以及配套的自適應學習系統。爲提升直播交互體驗,我們自研了一套不依賴視頻流的直播系統,能夠以極低的帶寬需求進行課件直播,同時減少網絡卡頓的影響。2016 年教師節,這套系統正式上線運營。之後的一年多時間裏,我們開始驗證公司的商業運行模式。但很遺憾,營收情況一直沒有大的起色。2017 年底,公司被另一家在線教育公司收購。此後,我便加入了 DataPipeline,由 ToC 領域轉向 ToB。

第一次創業,我印象最深刻的是,團隊用了 45 天就做出了一款 App,並在 90 天內完成了天使輪融資,這種成就感和幸福感是無與倫比的。我深刻體會到,無論資源有多麼匱乏,一羣有着共同願景目標的夥伴都能夠克服困難,爆發出無窮的戰鬥力。但後來商業化嘗試失敗讓我認識到,市場是殘酷的,僅有技術創新不足以讓一家創業企業存活。你需要深刻理解客戶羣體的核心訴求,尊重行業的自身規律,纔有可能獲得商業上的成功。

因爲有了第一次的經歷,我相信選擇和努力同樣重要,於是我選擇在 DataPipeline 開始了第二次創業。儘管在過去三年多裏,公司已經取得一定的成績,但整個團隊依然有非常強的生存危機感。更難能可貴的是,團隊總是非常坦誠的去討論這些問題:到底是客戶選擇有問題,還是產品功能不夠豐富,亦或是某些方面的深度不足?團隊成員之間沒有埋怨和相互推脫,有的只是共同發現問題和解決問題,這讓我非常欣慰。

TGO 鯤鵬會:目前您遇到最大的挑戰是什麼?有解決辦法了嗎?

陳肅:在中國做 ToB 企業服務有一個共性的挑戰:服務產品化和客戶需求個性化的矛盾。

我們發現,單純靠產品很難完全滿足客戶,尤其是大客戶的全部需求。一些共性的新需求可以放到產品迭代去解決,但是與客戶的其它系統集成和一些偏具體業務邏輯的需求,則要由現場實施團隊進行定製化開發來解決。

爲了解決這個矛盾,我們做了以下嘗試。首先,將產品接口對外開放,以便於客戶將 DataPipeline 與自有系統進行集成,包括可以通過已有的調度系統來控制 DataPipeline 的任務行爲;其次,我們提供了二次開發工具,遇到暫時沒有以標準化組件提供的上下游連接器需求,可以由客戶或我們的駐場團隊快速開發;最後,我們儘可能將運維流程標準化,並開發了一套排查工具,可以讓客戶快速定位問題是來自 DataPipeline,還是定製開發部分。

這些嘗試的最終目標是,實現產品的運維自助化,儘可能降低運維服務的人力和時間成本。

TGO 鯤鵬會:在您曾經解決過的難題中,最有成就感的是哪一次呢?

陳肅:相比於技術上的問題,我覺得如何協調好研發和客戶服務是一個更大的難題。

在 DataPipeline 成立初期,人員很少,研發、售前、運維都是由幾個開發人員扛起來的。不可否認的是,在一定時間內,這種模式體現出了它的高效性:開發人員對於業務邏輯和代碼最熟悉,他們可以直接回答客戶的各種細節問題,必要的時候還可以現場寫代碼解決程序 bug 和適配方面的問題。

隨着客戶數量的增長,這種粗分工模式越來越暴露出它的問題。第一,產品越來越複雜,對研發進度和質量的控制要求日趨嚴格。開發人員頻繁因爲客戶支持被打斷手頭的工作,嚴重影響效率;第二,部分開發人員並不擅長和客戶溝通,容易產生誤解;第三,大部分現場問題都可以按照一個標準的流程定位和解決,從成本考慮,讓開發人員去做現場排查並不經濟。

於是,我們開始招募售前、運維團隊,嘗試將研發人員從客戶服務中剝離。但面臨一個新的難題:如何將知識和技能有效地傳遞給售前和運維團隊。DataPipeline 的產品定位決定了我們的售前工程師通常需要和客戶進行技術細節的交流,而運維工程師要做到快速定位問題發生的環節。

舉例來說,客戶反饋說數據同步慢,這個慢可能發生在上游讀取、Kafka 的 IO、下游寫入目的地等各個環節,又或者是集羣任務調度因爲某些原因陷入了不穩定狀態。運維工程師要有能力進行甄別,解決運維層面的問題,協同研發人員定位解決疑似代碼層面的問題。爲了讓售前和運維團隊能夠相對獨立的服務客戶,我們定了如下規矩:

1、所有售前和運維工程師進入公司後,從產品使用和技術原理方面開始集中培訓。要求售前和運維都能夠回答關於產品使用層面的問題,熟悉產品核心技術點,例如高可用、數據一致性、動態擴容、性能影響因素、高級清洗的使用等等。要求售前能夠在客戶現場進行 POC 部署,運維能夠在研發不干預的情況下進行產品性能調優和故障排查;

2、研發人員只有在確定是 bug 和性能缺陷的情況下,才能直接和客戶接觸。其餘問題一律通過售前人員或運維人員進行解答。遇到未知問題,售前人員和運維人員可以向研發需求幫助,並記錄後放到知識庫中。

通過這種方式,我們目前基本將研發人員從日常的客戶服務中解放出來,也進一步提升了客戶的服務滿意度。

TGO 鯤鵬會:您如何看待參加類似 TGO 鯤鵬會裏的技術管理者的社交活動,這樣的活動對您有什麼幫助嗎?

陳肅:TGO 鯤鵬會是一個廣闊的技術管理經驗交流平臺,大家可以通過小組月度會、GTLC 全球技術領導力峯會和線下專題討論等方式,收穫到來自不同行業成員分享的技術管理經驗和公司經營方法論。

在 TGO 鯤鵬會組織的衆多活動中,我最喜歡小組月度會的形式,因爲大家可以圍繞一個主題,展開充分的討論,聊得非常深入。在一個私密的環境裏,大家會把工作中趟出的路、踩過的坑毫無保留的分享出來。從人員招聘到團隊管理,從客戶選擇到處理與公司合夥人的關係等等,你很難在其它的社交活動中得到這麼多高價值的信息。

TGO 鯤鵬會的成員來自各個行業,有我們潛在的客戶,也有上下游的合作伙伴。基於 TGO 鯤鵬會的平臺,大家能夠更加深入地瞭解彼此,促進各個層面的合作。


TGO鯤鵬會,是極客邦科技旗下高端技術人聚集和交流的組織,旨在組建全球最具影響力的科技領導者社交網絡,線上線下相結合,爲會員提供專享服務。目前,TGO鯤鵬會已在北京、上海、杭州、廣州、深圳、成都、硅谷、臺灣、南京、廈門、武漢、蘇州十二個城市設立分會。現在全球擁有在冊會員 800+ 名,60% 爲 CTO、技術 VP、技術合夥人。

會員覆蓋了 BATJ 等互聯網巨頭公司技術領導者,同時,阿里巴巴王堅博士、同程藝龍技術委員會主任張海龍、蘇寧易購 IT 總部執行副總裁喬新亮已經受邀,成爲 TGO 鯤鵬會榮譽導師。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章