疫情帶來的大數據第二春

中國軟件網 出品

作者 馬浩楠

------

面對疫情,很多人或許和記者一樣,每天早上睜開眼後做的第一件事,就是點開某個APP上的疫情地圖,看看最新的疫情數據。

疫情地圖、疫情數據的背後,讓記者對曾經一度熱炒、最近又稍顯降溫的大數據有了新的關注。

01

隨處可見的疫情實時地圖

新冠病毒的到來,影響了很多企業的生死存亡,企業們被迫站在這樣的關口,處境岌岌可危。但也有部分企業逆勢而上,不僅沒有受到危機的裹挾和衝擊,反而越挫越勇,反過身來創新突圍,取得了意想不到的發展,丁香園就是這樣一個在危機中讓流量飛起來的典型。

爲了應對疫情,2020年1月20日,丁香園疫情地圖上線,這一舉動瞬間引爆每個人的朋友圈。隨即,衆多互聯網醫療健康企業和新聞巨頭也推出疫情地圖實時播報,即時彙總疫情疾病數據,爲用戶傳遞疫情一線信息。騰訊新聞、鳳凰新聞、阿里健康、人民日報、網易新聞、百度等多家新聞媒體快速上線疫情專題,對疫情各維度的情況實時追蹤。

圖:丁香醫生界面最新截圖(2020.06.30)

同一時間,市面上出現大量相似而不相同的疫情地圖實時播報產品,某些產品甚至日均UV上億。

有機構專門研究對比了在移動應用端設有“全國肺炎疫情實時動態”或“抗擊肺炎”專項欄目的幾大平臺的具體內容,對各個平臺的疫情大數據服務進行了一些梳理。各個平臺上提供的基礎功能幾乎都包括:疫情數據、最新進展、同程查詢、闢謠鑑真、發熱門診、本地疫情、科普知識等幾大模塊。

這些在這特殊時期活躍在市面上的平臺,總是及時有效又準確的根據實際情況的變化對產品進行同步和更新。互聯網飛速發展的今天,龐大的瀏覽人次帶來的流量增長在短期內迅速提升了這些平臺的渠道影響力、口碑等。

02

乘風破“疫”的大數據

疫情專題離不開數據支撐。那麼疫情專題中的數據從何來?疫情中的數據又如何使用呢?

其實,疫情數據的統計遠比大部分人想像的要複雜,即便是「今日新增疑似病例」這樣看似簡單的數據,很多專業人士都會犯錯。而疫情數據統計的完整和準確性又至關重要,稍有差錯,就有可能產生信息誤導,導致大面積的民衆恐慌。同時,疫情每分每秒都在發生變化,大家都迫切地希望能在第一時間獲取相關信息。

這些問題靠純人工都很難解決,但在大數據的加持下,相比17年前的非典,很多問題的解決都有了質的變化。

國家及各地衛健委官網,每日以文章形式發佈疫情通報。各媒體利用爬蟲技術,將這些疫情通報的文章實時採集下來,從文章中提取有效病例數據,再以地圖、折線圖等可視化圖表和表格形式展示病例數據和疫情走勢,方便大家查閱。


那麼衛健委的數據從何而來呢?

中國軟件網瞭解到,部分衛健委的數據統計情況。以福建省委建委爲例,他們有兩套數據收集方式,第一套是通過層層上報的方式進行彙總;第二套是在網絡直報數據庫中提取數據。這其中,網絡直報數據庫,就是疫情期間利用大數據收集資料的重要舉措。

如何使用好這些數據,不僅是國家要想的,也是各個平臺要思考的。

根據香醫生疫情研究員的負責人介紹,其使用的數據均來源於國家衛健委、各省市區衛健委、各省市區政府公開數。丁香醫生的疫情地圖發佈最早,在數據管理及數據分析方面相比其他平臺而言更加完善。

因爲數據源頭的有限性,各家能拿到的原始數據基本一致。有部分平臺數據略有差異,則是因爲不同平臺進行數據抓取和加工的策略有所不同。有的平臺,採取按時發佈的方式,只抓取截止到前一日24點的全國數據,一天更新一次。而有的平臺,則採取定時發佈的方式,定時地抓取一些各省最新發布的數據,並隨時將其整理補充進去。

但是如果數據維度太多,迭代速度跟不上會丟失用戶;如果數據維度太少,同質化較大同樣會丟失用戶。各大平臺需要通過更新速度爭搶用戶的關注度,同時在各家獲取數據維度一致的情況下,如何滿足用戶各個方面的訴求,根據這些訴求下一步該怎麼進行,每個決策都充滿了取捨。

03

大數據迎來“第二春”

數據的收集統計離不開大數據,數據的使用應用離不開大數據,各種“疫情實時地圖”也離不開大數據的支撐。但除“疫情實時地圖”之外,疫情期間的大數據,隨處可見。

圖片來源於網絡

疫情發生後,工業和信息化部第一時間成立電信大數據支撐服務疫情防控領導小組,統籌協調部門之間、部省之間的聯動共享;國家電網浙江杭州供電公司研發了全國首個“電力大數據+社區網格化”算法,實現了收集、研判電力數據功能,對居民和電力數據,進行了收集和分析;隨着臨牀診斷數據的積累,新冠肺炎的影像學大數據特徵逐漸清晰,CT影像診斷結果變得愈發重要等等,都說明了大數據在突發重大公共事務中,具有極其重要的發展機遇。

現在,疫情期間病例數據來自於國家衛健委。中國軟件網也瞭解到,部分衛健委在疫情期間幾乎是以連軸轉的方式來工作。他們在每天凌晨十二點之前,將需要用來統計數據的表格整理好,十二點之後將第一次報上來的數據進行整理,同時將網絡直報數據庫中的數據導出來,分別做成兩個彙總表,然後將兩個彙總表中的數據進行比較,覈實之後再上報給國家衛健委。據反饋,這個過程中最難的部分是數據對比。有專家認爲,這種工作方式,或許可以通過更好的大數據平臺進行優化。在日後的政府工作中,大數據的應用會更加深入,從而減少更多時間、人物成本,提升效率。

在今年的全國兩會上,“新基建”被首次寫入政府工作報告。國家信息中心信息化和產業發展部主任單志廣表示,“新基建”將充分發揮數字對經濟發展放大、疊加、倍增作用,對產業鏈實行改造,有助於突破產業發展瓶頸,培育新的服務與消費,實現經濟增長動力機制由傳統要素驅動、投資規模驅動向創新驅動轉型。

國家發改委曾就新基建給出過“權威解釋”,新型基礎設施主要包括三方面內容:一是信息基礎設施,二是融合基礎設施,三是創新基礎設施。這三個大的方面無一不慣穿着大數據的使用。

疫情催生在線辦公、在線娛樂、在線教育、在線醫療、直播等領域的快速發展。他們也是大數據重要的應用場景。

往期回顧

解鎖SaaS黃金十年——誰將率先成爲SaaS行業巨獸?

重磅發佈 | 海比研究2020中國SaaS榜單

2020中國SaaS市場研究報告

SaaS的續費,是件大事兒

掃碼填寫問卷,說出你心中的「雲生態」

《中國雲生態服務滿意度調研報告》

即將發佈,敬請期待


掃描二維碼或點擊{閱讀原文}

即可下載報告

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章