“數(shù)據(jù)科學家”在2009年由Natahn Yau首次提出,其概念是采用科學方法、運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師。數(shù)據(jù)科學家集技術專家與數(shù)量分析師的角色于一身,與傳統(tǒng)數(shù)量分析師相比:后者通常利用企業(yè)的內部數(shù)據(jù)進行分析,以支持領導層的決策;而前者更多的是通過關注面向用戶的數(shù)據(jù)來創(chuàng)造不同特性的產品和流程,為客戶提供有意義的增值服務。
面向客戶的性質決定了大部分數(shù)據(jù)科學家擔任公司產品開發(fā)或營銷部門的職位,或是效力于首席技術官。那么數(shù)據(jù)科學家需要具備哪些核心能力呢?科技記者Derrick Harris在其文章中介紹了數(shù)據(jù)科學家應具備的一些技能。
他表示,在你詢問別人什么是數(shù)據(jù)科學家,或者數(shù)據(jù)科學家是做什么的時候,很容易發(fā)現(xiàn):“數(shù)據(jù)科學家”其實是從“大數(shù)據(jù)”引發(fā)的術語混亂中形成的。數(shù)據(jù)科學的核心能力被定義為:SQL、統(tǒng)計、預測建模和編程、Python等,這些聽起來很合理。但是很快就有更多名詞添加到其中:Hadoop/MapReduce、機器學習、可視化,甚至還有傳統(tǒng)的數(shù)學、物理、計算機科學等類似能力。
許多人呼吁專業(yè)領域、商業(yè)智慧、創(chuàng)造力及表達能力也是同樣重要的。一個數(shù)據(jù)科學家不能只擅長數(shù)字(這種人被稱為統(tǒng)計學家或分析師),也要能夠理解業(yè)務:什么樣的數(shù)據(jù)或結果才是有參考性的;能夠找到新的數(shù)據(jù)集并為其創(chuàng)造新產品;然后能夠讓CEO們理解這一切。這是一個艱巨的任務,這個世界上這類人是很少的。作為頂尖的數(shù)據(jù)科學家,不要求他們對環(huán)境做出什么積極的改變,但是需要他們嘗試做一些真正先進的東西,幫助大家更好的解決業(yè)務上的問題。
數(shù)據(jù)科學家的六種能力:
1.對數(shù)據(jù)的提取與綜合能力;
2.統(tǒng)計分析能力;
3.數(shù)據(jù)洞察與信息挖掘能力;
4.開發(fā)軟件能力;
5.網(wǎng)絡編程能力;
6.數(shù)據(jù)的可視化表示能力。
數(shù)據(jù)科學家涉及學科:
1.計算機科學:數(shù)據(jù)獲取、數(shù)據(jù)解析、數(shù)據(jù)存放、和數(shù)據(jù)安全
2.數(shù)理統(tǒng)計學:數(shù)據(jù)分析、數(shù)據(jù)過濾、數(shù)據(jù)挖掘、和數(shù)據(jù)優(yōu)化
3.圖形設計學:顯示數(shù)據(jù)結果,比如將數(shù)據(jù)表達成三維圖形,以便更好地理解和利用
4.人機交互學:在用戶和數(shù)據(jù)之間建立有機聯(lián)系,使得人對數(shù)據(jù)的使用更方便