1.請說明什麼是決策樹(Decision Tree)?優點又有哪些?(第 4 章,配分 25%)
答:決策樹又稱為分類樹,可同時提供分類與預測的常用方法,可處理類別型與連續型分類預測問題。決策樹是一種「監督式」的學習方法,主要功能是藉由已知分類的事例來建構樹狀結構,利用樹狀圖的分類自動確認和評估區隔,從中歸納出規則,並利用樣本進行預測。其分類的決策過程已樹狀結構來表示,以樹狀方式依照不同屬性,由上而下劃分資料來分類。
決策樹的優點:決策樹運用在分類問題上非常有效,具備圖形化分析結果易於瞭解,並有以下三個優點
(1)決策樹模型以圖形或容易解釋和理解的規則表示,有效且容易使用。
(2)可以處理連續型或類別型的變數,以最大資訊增益選擇分割變數,模型顯示變數的相對重要性。
(3)樹的大小和資料庫大小無關,因此面對大的資料集也可以處理得很好。當有很多變數入模型時,決策樹仍然可以建構。
2. 請問資料採礦的定羲為何? (第 4 章,配分 25%)
答:資料採礦亦稱資料探勘,是指在龐大的資料庫當中,利用各種技術與統計方法,將大量的歷史資料進行分析、歸納與整合等工作,找出有興趣之特徵且具有意義的資料。
資料採礦之所以吸引人,主要在於能快速從資料中擷取所需要的資訊,亦能有效分析解決大量與多維的資料。
3.請分別說明資料科學家需具備哪些的資質。 (第 5 章,配分 25%)
答:
(1)溝通能力:由巨量資料中發現的有用洞見,必須應用在商務上,才能真正發揮其價值。因此將資料分析結果轉化為「故事」,有效傳達給不具備資料分析專業知識的業務部同仁或管理階層,此溝通能力非常重要。
(2)創業家精神:指創造出全新的以資料為核心的服務,這種創業家精神是資料科學家必須具備的資質之一。例如 Google 和 Facebook 都是從龐大的資料量中,創造出新的服務模式,開展出新的局面和成功。
(3)好奇心:一位成功的資料科學家需擁有旺盛的好奇心,不僅是對龐大資料量裡的秘密有強烈的好奇,對於藝術、技術、醫療和自然科學等各領域都很想去探究,因此才能將不同領域的資料結合在一起分析,從中獲得從未發現過的、深具價值的洞見。
4. 請說明大數據分析的五大基本方面? (第 6 章,配分 25%)
答:
(1)數據品質和數據管理
數據品質和數據管理是一些管理方面的最佳實踐,通過標準化的流程和工具對數據進行處理,可保證一個預先定義好的高品質分析結果。
(2)數據採礦演算法
集群、分割、孤立點分析還有其他的演算法,讓我們深入數據內部,挖掘價值。這些演算法不僅要處理大數據的量,也要處理大數據的速度。
(3)預測性分析能力
數據採礦可以讓分析員更理解數據,而預測性分析可以讓分析員根據視覺化分析和數據採礦的結果做出一些預測性的判斷。
(4)視覺化分析
對數據分析專家或一般使用者,數據視覺化是數據分析工具最基本的要求。視覺化可以直觀的展示數據,讓數據自己說話,讓觀眾聽到結果。
(5)語義引擎
非結構化數據的多樣性帶來數據分析的新挑戰,需要一系列工具去解析、攫取、分析數據。語義引擎需要被設計成能夠從「文檔」中至會提取資訊。
留言列表