大數據之有的沒的

大數據之有的沒的

日本酪農希望提高乳牛的人工受孕率,而傳統觀察只能靠地上增多的蹄數,以及試著騎乘來猜測,人工辨識率僅40%,人工受孕率僅30%;日本富士通在每隻乳牛的前腳綁上計步器,每小時自動無線上傳數據,所以在21天左右的週期,發情時單位步數會達平時的兩倍,是個訊號顯著的計時零點,實驗確認16小時後的前後4小時是最佳人工受孕時機,因計步器發情偵測準確性提高到95%,提升成功人工受孕率至65%。有了準確的各項長時間記錄,統計發現:前4小時受孕多懷母胎,後4小時多懷公胎,更給了酪農簡單的工具,用來決定要多些乳牛還是多些肉牛。當初新聞發表的吸睛標題是:「when A.I. meets A.I.(Artificial Intelligence & Artificial Insemination)」。另外,長時期大量的數據記錄與病例確診,可以利用電腦機器學習(Machine Learning)建構分類模型,可分辨與預測8種疾病,這又是超乎預期的紅利效益。另外,美國伊利諾州的乳品企業,分析比對歷史數據,發現農業氣象的露點預報,可以是預測每日冰淇淋需求量的單一參考依據。物聯網加上數據分析,正在改變傳統產業成為各種智慧產業。

「開放資料」(Open Data)多被視為公共財產,大多是來自政府的資料,國家對其他資源都加以管理並設計增加稅收,那麼開放資料的延伸獲利,是否可以有如開放程式源般的授權管理?同時,開放資料造成的池魚損害,是否也在國家賠償範圍內?

拿紐約市公開租賃車(Taxi & Limo)2013年的資料為例,逾1億7千萬筆的載客趟次,項目包含了去識別化的代碼、起迄的日期時間、GPS座標位置、乘客人數等等,共約20GB容量,如預期地完成了圖形顯示全時全區的交通流量研究,但意想不到讓駭客以已知車牌格式,輕鬆地利用電腦窮極嘗試,破解了去識別化的車牌號碼,加上其他公開資料庫,可以得出司機個人資訊乘客習慣;始料未及的是,還有鬼才利用特種行業地點的特殊時段,找出上下車點的地址,搭配其他公開資訊(如美國選舉資料)比對,對一般市民加以勒索。雖然有的國家立法將試圖破解去識別化的行為即視為犯罪,但網路無國界,駭客無敵我。因此,針對開放資料更該提前擴大舉辦「駭客松」(Hackathon)作各式模擬破解,獎賞激勵下使之更安全。

「數據倫理」(Data Ethics)的關注肇因於數據分析的最後影響總是關係到人,因此在整個過程:「數據蒐集、數據傳遞、數據分析、與數據儲存」,都需要全程關注各項細節:「網路安全、個資保全、隱私尊重、與數據倫理」。數據本身是中性的,是任意蒐集與無意洩漏造成了保全問題,是分析的手段與目的造成了道德問題。論述一般職業倫理時,判斷違反人員的三個基本共識是:直接造成非倫理結果的前因相關人員、知曉會有如是結果的相關人員、若能有其他避免選項而不採取的相關人員。所以每個環節的單位企業,都該成立「數據倫理指導委員會」,做內部把關裁決。

試問台灣智慧醫療的目標是:提升醫事人員效率?降低醫院健保罰款機會?計算高利潤門診與用藥?篩選分類病患而服務?…若沒有同時量化分析,病患的長期身心效益作最高指導準則,智慧醫療就可能陷入道德倫理危機。

「資料科學」(Data Science)儼然是個新學門,就像是「電腦科學」於50年前產生,當初物理大師費因曼還公開嘲弄:電腦怎麼會是個科學?但看看這50年來的發展,是其他科學的重要工具,更是個需要多領域合作的學門。既然是科學,強調的就是實驗精神。過去的數據分析多是統計「描述性分析」(Descriptive Analytics),當前利用先進工具,重視的是模型「預測性分析」(Predictive Analytics),大數據分析最擅長的是找出兩兩相關性,但相關性並不代表因果性(Correlation vs. Causation),所以未來的數據分析挑戰是能自動釐清龐雜項目因果性的「處方式分析」(Prescriptive Analytics),方法之一是善用電腦的窮極迴圈,輪流抽換不同項目,排列出影響預測的準確程度,再於時間序列上,實驗出相關項目的影響變化,有了虛擬世界的模擬,再於實際世界實驗確認。

舉例美國線上售票TicketMaster,多年來一直為黃牛大量搶票造成的民怨所苦,試過多種方法分析研究,但對於以秒殺搶購過程與靈活善變的黃牛而言,都無法有效對付,多是失敗實驗結果,只好求助Hackathon腦力激盪,一旦觀念轉對,問題可迎刃而解:重點不在於確認誰是黃牛,而是要讓良民順利買票。所以採行的是即時分析線上購票者的行為,只要是疑似黃牛就技術性的拖慢或跳出,順利讓一字一字輸入卡號的良民完成購票程續。

「資料經濟」(Data Economy)在在強調企業營運不再只靠傳統的人力、金錢、土地,數據資料已成為第四項重要的生產要素。那麼某公司低價或無償地提供數據,讓其他(子)公司分析獲利炒作,算不算是掏空資產?目前有相關法條可規範嗎?數據資料該如何鑑價與追蹤?

Big Data或許像是個噱頭口號,但大數據分析就像科技產品一般,將持續提升人類文明。

彭 光中

KC Peng, Ph.D.
彭光中 博士

發表迴響