【資料科學】 - 認識結構資料

structured data.png

結構化的資料中,最常見的方式便是以 Excel 表格去呈現,在複雜一點會由關聯式資料庫的形式呈現(例如:SQL, MySQL...);表格中的欄位(Column)通常會稱做屬性/特徵值(Attribute)每一列(Row)則為每一筆數據(Objects/Data);而每一筆數據的特徵值又因資料類別的不同,可以分為以下各種資料種類:


(1) Nomial 名目上的屬性 - 類別 (僅做分類,數值不具順序意義)

     範例:郵遞區號、性別、身份證字號...等

     - 只能做是非的判斷 ( = or ≠ )


(2) Ordinal 排序上的屬性 - 類別&數值

     範例:PR值、成績等第、滿意度1-10分...等

     - 可做次序上比較判斷 ( >, < )


(3) Interval 區間上的屬性 - 數值

     範例:攝氏溫度、日期、滿意度1-10分...等

     - 可做數值上基礎運算比較,數字具備相對意義 ( +, - )


(4)   Ratio   比例上的屬性  - 數值

     範例:絕對溫度、金額、年齡、身高、體重...等

     - 可做數值上運算操作,數字具備絕對意義 ( ×, ÷ )



看完以上敘述,可能大家還是無法理解其不同種類意涵,以下以學生資料為範例:


(假設以下資料為學期結束後,課程問卷調查內容。)


學號性別學期成績課程滿意度每周學習時數(hr)
109201345B   9
109201347
A+812
109201405C -43


  - 學號性別 歸類在 Nomial 屬性,其數據僅具分類、辨別功能 (無比較意義)


  - 學期成績 歸類在 Ordinal 屬性,具相互比較意義

    (A+成績較 C-, B 分數好)


  - 課程滿意度 歸類在 Interval 屬性,具數值比較意義 

    (成績B 的同學課堂滿意度較成績A+的同學高出1分)


  - 每周學習時數 歸類在 Ratio 屬性,具絕對比較意義 

    (成績A+的同學學習時數為成績C-的同學之三倍, 12/3 = 4)



看完以上敘述,大家是否都能理解呢?看似相當簡單的數據種類判斷,卻深遠著影響後續進行資料分析的過程,若能完整理解資料屬性之間的差異,後續分析的邏輯、分析技術的應用都能快速上手!


若有任何疑問或建議,我們相當歡迎讀者們,針對此課程來信與自由團隊做進一步探討喔! (AI.Free.Team@gmail.com)