上海大數據中心的技術人員在獲取海量原始數據之后,首先會將所有原始數據投入“數據湖”之中,再針對湖內的數據設定特定的規(guī)則,通過規(guī)則進行匹配,最后得出想要的結果數據。
數據湖,可以理解成一個存儲各種各樣原始數據的大型倉庫,又稱為原始數據保存區(qū),技術人員就相當于倉庫管理員,負責存取、處理、分析及傳輸數據。數據湖的包容性非常強,能存儲各種結構及規(guī)模的數據。做到輕松地收集和攝入數據的同時,它還可以支持不同類型的大數據工具對其中的數據進行處理,極大地方便技術人員進行后期分析和利用。所以在處理“隨申碼”的數據之前,大數據中心的工程師第一步就要將從各渠道所得的原始數據統(tǒng)一存儲入數據湖內,再針對湖內的數據進行比對、清洗工作。
大數據中心數據資源部部長儲昭武介紹稱:“我們現在的數據來源比較多,各個字段的準確度是不一樣的。那為了獲取準確的人的數據,那我們要對人口庫內的數據,以及隨申辦用戶注冊時(填寫)的數據,包括姓名字段、身份證字段、聯(lián)系電話字段進行計算,找出可信的數據。然后合成一條準確的人的基本信息,這就是通過比對能得到我想要的人的基本信息。
而在清洗這一塊,舉個最簡單的例子,“健康登記”這一塊數據,由于在道口比較匆忙,登記的數據都是五花八門的。有身份證號不對的,有聯(lián)系方式不準確的,甚至是找不到聯(lián)系地址的。那我們要把這些“臟數據”挑出來,我們的工程師是要通過一定的規(guī)則進行編程,讓系統(tǒng)對逐條數據進行計算,把這些有問題的數據給剔除,得到干凈的數據,這就是清洗的過程。”
從隨申碼的大數據邏輯來看,健康碼的基礎,首先是“網絡實名制”,即理論上我們每一個人在網站和手機軟件上注冊的所有賬號,都是實名即對應一個真實的人員。
其次,是市民行為的數據化。比如說你的手機導航、通訊使用、進出各省市道口的航空、高鐵信息等。這些行為也是構成每個人行動軌跡的重要參考來源。
劍網行動舉報電話:12318(市文化執(zhí)法總隊)、021-64334547(市版權局)
Copyright ? 2016 Kankanews.com Inc. All Rights Reserved. 看東方(上海)傳媒有限公司 版權所有
全部評論
暫無評論,快來發(fā)表你的評論吧