結構化的資料中,最常見的方式便是以 Excel 表格去呈現,在複雜一點會由關聯式資料庫的形式呈現(例如:SQL, MySQL...);表格中的欄位(Column)通常會稱做屬性/特徵值(Attribute)、每一列(Row)則為每一筆數據(Objects/Data);而每一筆數據的特徵值又因資料類別的不同,可以分為以下各種資料種類:
(1) Nomial 名目上的屬性 - 類別 (僅做分類,數值不具順序意義)
範例:郵遞區號、性別、身份證字號...等
- 只能做是非的判斷 ( = or ≠ )
(2) Ordinal 排序上的屬性 - 類別&數值
範例:PR值、成績等第、滿意度1-10分...等
- 可做次序上比較判斷 ( >, < )
(3) Interval 區間上的屬性 - 數值
範例:攝氏溫度、日期、滿意度1-10分...等
- 可做數值上基礎運算比較,數字具備相對意義 ( +, - )
(4) Ratio 比例上的屬性 - 數值
範例:絕對溫度、金額、年齡、身高、體重...等
- 可做數值上運算操作,數字具備絕對意義 ( ×, ÷ )
看完以上敘述,可能大家還是無法理解其不同種類意涵,以下以學生資料為範例:
(假設以下資料為學期結束後,課程問卷調查內容。)
學號 | 性別 | 學期成績 | 課程滿意度 | 每周學習時數(hr) |
109201345 | 女 | B | 9 | 5 |
109201347 | 女 | A+ | 8 | 12 |
109201405 | 男 | C - | 4 | 3 |
- 學號與性別 歸類在 Nomial 屬性,其數據僅具分類、辨別功能 (無比較意義)
- 學期成績 歸類在 Ordinal 屬性,具相互比較意義
(A+成績較 C-, B 分數好)
- 課程滿意度 歸類在 Interval 屬性,具數值比較意義
(成績B 的同學課堂滿意度較成績A+的同學高出1分)
- 每周學習時數 歸類在 Ratio 屬性,具絕對比較意義
(成績A+的同學學習時數為成績C-的同學之三倍, 12/3 = 4)
看完以上敘述,大家是否都能理解呢?看似相當簡單的數據種類判斷,卻深遠著影響後續進行資料分析的過程,若能完整理解資料屬性之間的差異,後續分析的邏輯、分析技術的應用都能快速上手!
若有任何疑問或建議,我們相當歡迎讀者們,針對此課程來信與自由團隊做進一步探討喔! (AI.Free.Team@gmail.com)