1. Tổng quan
Sử dụng tính năng
Chuẩn hóa dữ liệu “
Standardize” để chuẩn hóa các cột dữ liệu có sự khác biệt về trung tâm hoặc tỷ lệ để bạn có thể dễ dàng so sánh các cột dữ liệu hoặc phân tích các cột dữ liệu với nhau. Dữ liệu chuẩn hóa được lưu trữ trong các cột mới trong trang tính.
Ví dụ, một nhà nghiên cứu muốn mô hình tỷ lệ xung sử dụng chiều cao và trọng lượng, không được đo trên cùng một thang đo. Nhà nghiên cứu chuẩn hóa các yếu tố dự đoán
Chiều cao “
Height” và
Cân nặng “
Weight” bằng cách trừ đi giá trị trung bình, để chúng sử dụng cùng một thang đo.
C1 |
C2 |
C3 |
C4 |
C5 |
Height |
Weight |
Pulse |
Standardize Height |
Standardize Weight |
66.00 |
140 |
64 |
−2.72527 |
−5.0989 |
72.00 |
145 |
58 |
3.27473 |
−0.0989 |
73.50 |
160 |
62 |
4.77473 |
14.9011 |
... |
... |
... |
... |
... |
Tìm lệnh này ở đâu
-
Để chuẩn hóa dữ liệu, hãy chọn Calc > Standardize.
2. Ví dụ
Một kỹ sư vật liệu tại một nơi sản xuất đồ nội thất muốn đánh giá độ cứng của ván dăm mà nhà sản xuất sử dụng. Kỹ sư thu thập dữ liệu độ cứng từ các mảnh ván dăm có mật độ khác nhau ở các nhiệt độ khác nhau.
Để so sánh nhiệt độ và mật độ trên cùng một thang đo và cùng một trung tâm, kỹ sư chuẩn hóa các biến này.
1. Mở dữ liệu mẫu,
ParticleBoard.MTW.
2. Chọn
Calc >
Standardize.
3. Trong
Input column(s), nhập
Density Temp.
4. Trong
Store results in, nhập
'Std Density'
'Std Temp'.
5. Chọn
Trừ trung bình và chia cho độ lệch chuẩn “
Subtract mean and divide by standard deviation”.
6. Bấm
OK.
Kết quả
Các cột tiêu chuẩn hóa có trong trang tính. Kỹ sư có thể so sánh mật độ và nhiệt độ chuẩn hóa trên cùng một thang đo với cùng một trung tâm.
C1 |
C2 |
C3 |
C4 |
C5 |
Density |
Stiffness |
Temp |
Std Density |
Std Temp |
9.5 |
14.81 |
70.6 |
−0.99293 |
0.95796 |
8.4 |
17.50 |
73.3 |
−1.18466 |
2.07910 |
9.8 |
14.01 |
66.2 |
−0.94064 |
−0.86674 |
... |
... |
... |
... |
... |
3. Chuẩn hóa các cột dữ liệu
Lệnh:
Calc >
Standardize
Hộp thoại Standardize xuất hiện:
Hoàn thành các bước sau để chuẩn hóa các cột dữ liệu.
1. Trong Input column(s), hãy nhập một hoặc nhiều cột để chuẩn hóa.
2. Trong Store results in, hãy nhập số cột (ví dụ: C1) hoặc tên cột cho mỗi cột đầu vào. Nếu tên chứa khoảng trắng, hãy đặt tên trong dấu ngoặc kép.
3. Chọn phương pháp để chuẩn hóa dữ liệu:
-
Trừ trung bình và chia cho độ lệch chuẩn “Subtract mean and divide by standard deviation”: Căn giữa dữ liệu và thay đổi các đơn vị thành độ lệch chuẩn. Đối với phân tích hồi quy “regression analysis”, hãy chọn phương pháp này để chuẩn hóa các yếu tố dự báo nhằm giảm tác động đa cộng tuyến “multicollinearity” và so sánh kích thước của các hệ số trên một thang đo có thể so sánh được.
-
Trừ trung bình “Subtract mean”: Căn giữa dữ liệu. Đối với phân tích hồi quy, hãy chọn phương pháp này để chuẩn hóa các yếu tố dự báo nhằm giảm tác động đa cộng tuyến. Phương pháp này hữu ích khi mô hình của bạn chứa các yếu tố dự đoán có tính dự báo tương quan cao “highly correlated predictors”, các biến trình tự “Higher-order terms” và các biến kết hợp “interaction terms”.
-
Chia cho độ lệch chuẩn “Divide by standard deviation”: Chuẩn hóa thang đo cho từng biến mà bạn chỉ định, để bạn có thể so sánh chúng trên một thang tương tự. Đối với phân tích hồi quy, hãy chọn phương pháp này để chuẩn hóa các biến dự báo “predictor variables” nhằm xác định những yếu tố dự báo nào có tác động lớn hơn, đồng thời kiểm soát sự khác biệt về quy mô.
-
Trừ giá trị đầu tiên, sau đó chia cho giá trị thứ hai “Subtract first value, then divide by second”: Nhập các giá trị của riêng bạn (chẳng hạn như các giá trị đã biết cho giá trị trung bình và độ lệch chuẩn) để trừ và chia cho.
-
Tạo phạm vi từ đầu đến cuối “Make range from start to end”: Biến đổi dữ liệu một cách tuyến tính để dữ liệu kết quả có giá trị đầu tiên mà bạn chỉ định là giá trị nhỏ nhất và giá trị thứ hai mà bạn chỉ định là giá trị lớn nhất.
Nguồn: https://support.minitab.com/