Hotline: 098 821 7749 info@acinternational.com.vn

Tổng quan về tính toán các chỉ số thống kê đối với Hàng và Cột

Cỡ chữ
1. Tổng quan

Tính năng Column Statistics và Row Statistics dùng để tính toán các chỉ số thống kê mô tảdescriptive statistic” cho một cột hoặc cho mỗi hàng trong một tập hợp các cột trong trang tính Minitab.



Column Statistics

Sử dụng tính năng  thống kê theo cộtcolumn statistics” để tính toán các chỉ số thống kê mô tả cho một cột. Ngoài việc hiển thị biến, bạn có thể chọn lưu trữ các chỉ số thống kê trong một hằng số, chẳng hạn như K1.
 
Ví dụ: một nhà thống kê tính toán giá trị trung bình của cột Cân năngWeight” và lưu trữ giá trị trung bình trong một hằng số để sử dụng trong một phép tính khác.
 




Row Statistics

Sử dụng Thống kê hàngRow Statistics” để tính toán và lưu trữ các chỉ số thống kê mô tả được chỉ định, chẳng hạn như giá trị trung bình, cho mỗi hàng dữ liệu trong các cột được chỉ định.
 
Ví dụ, một kỹ sư chất lượng ghi lại số lượng các bộ phận bị loại bỏ được sản xuất bởi mỗi trong ba máy trong mỗi ca làm việc. Kỹ sư chất lượng tính toán tổng các bộ phận bị loại từ mỗi máy trong các ca làm việc và lưu trữ chúng trong cột TổngSum”.

C1 C2 C3 C4 C5
Machine ID 1st shift 2nd shift 3rd shift Sum
1 48 47 48 143
2 76 47 32 155
3 36 40 34 110
 

 
Tìm các lệnh này ở đâu

Để tính toán các chỉ số thống kê theo cột, hãy chọn Calc > Column Statistics.
 
Để tính toán các  chỉ số thống kê theo hàng, hãy chọn Calc > Row Statistics.


 
Khi nào sử dụng lệnh thay thế

Để tính toán nhiều chỉ số thống kê mô tả cho một hoặc nhiều cột, hãy sử dụng tính năng Display Descriptive.
 
2. Chọn lựa chỉ số thống kê cần tính toán cho hàng hoặc cột
Chọn Calc > Column Statistics hoặc Calc > Row Statistics, sau đó chọn một trong các chỉ số thống kê để tính toán bên dưới:
  • Sum
  • Mean
  • Standard deviation
  • Minimum
  • Maximum
  • Range
  • Median
  • Sum of squares
  • N total
  • N missing
 
Trong đó:
 
Sum

Sum là tổng của tất cả các giá trị dữ liệu.


Mean

Sử dụng giá trị trung bìnhMean” để mô tả mẫu với một giá trị duy nhất đại diện cho trung tâm của dữ liệu. Nhiều phân tích thống kê sử dụng giá trị trung bìnhMean” như một thước đo tiêu chuẩn cho trung tâm của sự phân phối dữ liệu.
 

Standard deviation

Sử dụng độ lệch chuẩn Standard deviation” để xác định mức độ trải rộng của dữ liệu so với giá trị trung bình. Để biết thêm thông tin, hãy tham khảo bài viết: Độ lệch chuẩn là gì?
 

Minimum

Giá trị nhỏ nhấtMinimum” là giá trị dữ liệu nhỏ nhất trong mẫuSample”. Sử dụng giá trị tối thiểuMin” để xác định một lỗi ngoại lệ có thể xảy ra hoặc một lỗi nhập dữ liệu. Một trong những cách đơn giản nhất để đánh giá mức độ lan truyền dữ liệu của bạn là so sánh mức tối thiểu và mức tối đa.


Maximum

Giá trị lớn nhấtMax” là giá trị dữ liệu lớn nhất trong mẫuSample”. Sử dụng giá trị tối đa để xác định lỗi ngoại lệ có thể xảy ra hoặc lỗi nhập dữ liệu. Một trong những cách đơn giản nhất để đánh giá mức độ lan truyền dữ liệu của bạn là so sánh mức tối thiểu và mức tối đa.
 

Range

Phạm viRange” là sự khác biệt giữa giá trị dữ liệu lớn nhất và nhỏ nhất trong mẫu. Phạm vi đại diện cho khoảng nhỏ nhất chứa tất cả các giá trị dữ liệu.
 

Median

Trung vịMedian” là một thước đo khác về trung tâm của sự phân phối dữ liệu. Giá trị trung vịMedian” thường ít bị ảnh hưởng bởi các giá trị ngoại lai hơn giá trị trung bìnhMean”. Một nửa giá trị dữ liệu lớn hơn giá trị trung vị và một nửa giá trị dữ liệu nhỏ hơn giá trị trung vị.


Sum of squares

Tổng bình phươngSum of squares” chưa hiệu chỉnh được tính bằng cách bình phương từng giá trị trong cột, sau đó cộng các giá trị bình phương đó. Ví dụ, nếu cột chứa x1, x2, ..., xn, thì tổng bình phương được tính là (x12 + x22 + ... + xn2). Không giống như tổng bình phương được hiệu chỉnhCorrected sum of squares”, tổng bình phương chưa được hiệu chỉnh bao gồm lỗi. Các giá trị dữ liệu được bình phương mà không trừ giá trị trung bìnhMean” trước.

 
N total

N totalTổng số quan sát trong cột. Dùng để biểu diễn tổng của N thiếuN missing” và N không thiếuN nonmissing”. Minitab hiển thị giá trị này trong đầu ra dưới dạng Tổng sốTotal Count”.
 
N missing

N missingSố lượng giá trị còn thiếu trong mẫu. Số lượng giá trị bị thiếu đề cập đến các ô có chứa ký hiệu giá trị bị thiếu *. Minitab hiển thị giá trị này trong đầu ra là N *.
 

N nonmissing

N nonmissing là Số lượng giá trị không bị thiếu trong mẫu. Minitab hiển thị giá trị này trong đầu ra là N.



3. Chỉ định các tùy chọn đầu vào và lưu trữ cho Thống kê cột “Column Statistics”

Hoàn thành các bước sau để chỉ định cột đầu vào và vị trí lưu trữ tùy chọn.

1. Trong mục Biến đầu vàoInput variable”, hãy nhập cột dữ liệu số để tính toán thống kê.

2. (Tùy chọn) Trong mục Lưu trữ kết quả tạiStore result in”, nhập một số không đổi (ví dụ: K1) hoặc tên hằng số. Nếu tên chứa khoảng trắng, hãy đặt tên trong dấu ngoặc kép.

TIP
Để xem một hằng số đã lưu, hãy chọn Data > Display Data.



4. Chỉ định các tùy chọn đầu vào và lưu trữ cho Thống kê hàng “Row Statistics”

Hoàn thành các bước sau để chỉ định các cột đầu vào và vị trí lưu trữ.

1. Trong Biến đầu vàoInput variable”, hãy nhập một hoặc nhiều cột dữ liệu số để phân tích.

2. Trong Lưu trữ kết quả tạiStore result in”, hãy nhập số cột (ví dụ: C1) hoặc tên cột. Nếu tên chứa khoảng trắng, hãy đặt tên trong dấu ngoặc kép.
 
 

5. Diễn giải cho kết quả Thống kê Cột và Thống kê Hàng

Dưới đây là định nghĩa và hướng dẫn giải thích cho mọi chỉ số thống kê được cung cấp cùng với thống kê cột và thống kê hàng.


Sum

TổngSum” là tổng của tất cả các giá trị dữ liệu. TổngSum”  cũng được sử dụng trong các tính toán thống kê, chẳng hạn như giá trị trung bìnhMean” và độ lệch chuẩnstandard deviation”.


Mean

Giá trị trung bìnhMean” là giá trị trung bình của dữ liệu, là tổng của tất cả các quan sátobservation” chia cho số lượng quan sátnumber of observation”.
 
Ví dụ: thời gian chờ (tính bằng phút) của năm khách hàng trong ngân hàng là: 3, 2, 4, 1 và 2. Thời gian chờ trung bình được tính như sau:



Như vây, trung bình một khách hàng chờ đợi 2,4 phút để được phục vụ tại ngân hàng.
 
Diễn giải

Sử dụng giá trị trung bình Meanđể mô tả mẫu với một giá trị duy nhất đại diện cho trung tâm của dữ liệu. Nhiều phân tích thống kê sử dụng giá trị trung bình như một thước đo tiêu chuẩn cho trung tâm của sự phân phối dữ liệu.
 
Giá trị trung vịMediangiá trị trung bình Meanđều đo lường xu hướng trung tâm. Nhưng các giá trị bất thường, được gọi là giá trị ngoại lai, có thể ảnh hưởng đến giá trị trung vịMedian ít hơn so với chúng ảnh hưởng đến giá trị trung bình Mean. Nếu dữ liệu của bạn là đối xứng, giá trị trung bình và giá trị trung vị là tương tự.


Dữ liệu phân bố đối xứng (Symmetric)
 
 

Dữ liệu phân bố bất đối xứng (Not Symmetric)
 
Đối với phân phối đối xứng, giá trị trung bìnhMean” (đường màu xanh) và trung vịMedian” (đường màu cam) giống nhau đến mức bạn không thể dễ dàng nhìn thấy cả hai đường. Nhưng nếu dữ liệu phân bố không đối xứng, bạn sẽ nhìn thấy hai đường này này tách biệt.
 

StDev

Độ lệch chuẩnStDev” là thước đo phổ biến nhất của độ phân tán, hoặc mức độ trải rộng của dữ liệu so với giá trị trung bìnhMean”. Ký hiệu σ (sigma) thường được sử dụng để biểu thị độ lệch chuẩn của một tập hợp “standard deviation of a population”, trong khi s được dùng để biểu thị độ lệch chuẩn của một mẫu “standard deviation of a sample”. Sự thay đổi ngẫu nhiên hoặc tự nhiên của một quá trình thường được gọi là nhiễuNoise”.
 
Bởi vì độ lệch chuẩn có cùng đơn vị với dữ liệu, nó thường dễ hiểu hơn phương saivariance”.
 
Diễn giải

Sử dụng độ lệch chuẩn để xác định mức độ trải rộng của dữ liệu so với giá trị trung bình. Giá trị độ lệch chuẩn cao hơn cho thấy mức độ lan truyền dữ liệu lớn hơn. Một nguyên tắc chung cho phân phối chuẩn Normal distributionlà khoảng 68% giá trị nằm trong một độ lệch chuẩn của giá trị trung bình, 95% giá trị nằm trong hai độ lệch chuẩn và 99,7% giá trị nằm trong ba độ lệch chuẩn.
 
Độ lệch chuẩn cũng có thể được sử dụng để thiết lập một điểm chuẩn để ước tính sự thay đổi tổng thể của một quá trình.



Bệnh viện 1



Bệnh viện 2

 
Thời gian xuất viện

Quản trị viên theo dõi thời gian làm thủ tục xuất viện của các bệnh nhân đang điều trị tại khoa cấp cứu của hai bệnh viện. Mặc dù thời gian làm thủ tục xuất viện trung bình là như nhau (35 phút), nhưng độ lệch chuẩn là khác nhau đáng kể. Độ lệch chuẩn của bệnh viện 1 là khoảng 6 phút. Trung bình, thời gian xuất viện của một bệnh nhân lệch so với giá trị trung bình (đường nét đứt màu đỏ) khoảng 6 phút. Độ lệch chuẩn của bệnh viện 2 là khoảng 20 phút. Trung bình, thời gian xuất viện của một bệnh nhân lệch so với giá trị trung bình (đường nét đứt màu đỏ) khoảng 20 phút.
 


Minimum

Giá trị nhỏ nhấtMinimum” là giá trị dữ liệu nhỏ nhất.
 
Trong những dữ liệu này, giá trị nhỏ nhất là 7.
 

 
Diễn giải

Sử dụng giá trị nhỏ nhấtMinimum để xác định lỗi ngoại lệ có thể xảy ra hoặc lỗi nhập dữ liệu. Một trong những cách đơn giản nhất để đánh giá mức độ lan truyền dữ liệu của bạn là so sánh giá trị nhỏ nhấtMinimumgiá trị lớn nhấtMaximum. Nếu giá trị nhỏ nhất rất thấp, ngay cả khi bạn xem xét trung tâm, độ lan truyền và hình dạng của dữ liệu, hãy điều tra nguyên nhân của giá trị cực trịextreme value.


Range

Phạm viRange” là sự khác biệt giữa giá trị dữ liệu lớn nhất “Maximum” và nhỏ nhất “Minimum” trong mẫuSample”. Phạm vi đại diện cho khoảng có chứa tất cả các giá trị dữ liệu.
 
Diễn giải
Sử dụng phạm viRange để hiểu mức độ phân tán trong dữ liệu. Giá trị phạm vi lớn cho biết dữ liệu có độ phân tán lớn hơn. Giá trị phạm vi nhỏ chỉ ra rằng dữ liệu ít bị phân tán hơn. Bởi vì phạm vi được tính toán chỉ bằng cách sử dụng hai giá trị dữ liệu, nó hữu ích hơn khi xem xét với các tập dữ liệu nhỏ.
 

Median
Trung vịMedian” là điểm giữa của tập dữ liệu. Giá trị điểm giữa này là điểm mà tại đó một nửa số quan sát ở trên giá trị và một nửa số quan sát ở dưới giá trị. Trung vị được xác định bằng cách xếp hạng các quan sát và tìm quan sát ở số [N + 1] / 2 theo thứ tự được xếp hạng. Nếu số lượng quan sát là chẵn, thì trung vị là giá trị trung bình của các quan sát được xếp hạng ở các số N / 2 và [N / 2] + 1.
 

 
Đối với dữ liệu có thứ tự này, giá trị trung bình là 13. Nghĩa là, một nửa giá trị nhỏ hơn hoặc bằng 13 và một nửa giá trị lớn hơn hoặc bằng 13. Nếu bạn thêm một quan sát khác bằng 20, giá trị trung bình là 13,5, là giá trị trung bình giữa quan sát thứ 5 (13) và quan sát thứ 6 (14).
 
Diễn giải

Giá trị trung vịMediangiá trị trung bìnhMean đều đo lường xu hướng trung tâm. Nhưng các giá trị bất thường, được gọi là giá trị ngoại lai, có thể ảnh hưởng đến Giá trị trung vịMedian ít hơn chúng ảnh hưởng đến giá trị trung bìnhMean. Nếu dữ liệu của bạn là đối xứng, giá trị trung bình và giá trị trung vị là tương tự.


Dữ liệu phân bố đối xứng


Dữ liệu phân bố không đối xứng
 
Đối với phân phối đối xứng, giá trị trung bình (đường màu xanh) và trung vị (đường màu cam) giống nhau đến mức bạn không thể dễ dàng nhìn thấy cả hai đường. Nhưng phân bố không đối xứng bị thì nó lệch sang phải.
 
 
Sum of Squares

Tổng bình phươngSum of Squares” chưa hiệu chỉnh được tính bằng cách bình phương từng giá trị trong cột và tính tổng của các giá trị bình phương đó. Ví dụ: nếu cột chứa x1, x2, ..., xn, thì tổng bình phương sẽ tính (x12 + x22 + ... + xn2). Không giống như tổng bình phương đã sửacorrected sum of squares”, tổng bình phương chưa hiệu chỉnh bao gồm cả lỗi. Các giá trị dữ liệu được bình phương mà không trừ giá trị trung bình trước.
 
 
Total Count

Tổng số quan sátTotal count” trong cột. Dùng để biểu diễn tổng của Số quan sát bị thiếuN missing” và Số quan sát hợp lệN nonmissing”.
 
Trong ví dụ này, có 141 quan sát hợp lệ và 8 giá trị bị thiếu. Tổng số quan sátT count” là 149.


 
N

NSố lượng giá trị quan sát hợp lệ trong mẫu.
 
Trong ví dụ này, có 141 quan sát hợp lệ được ghi lại.


 
N *

N * là Số lượng quan sát bị thiếu trong mẫu. Số lượng quan sát bị thiếu đề cập đến các ô chứa ký hiệu giá trị bị thiếu *.
 
Trong ví dụ này, 8 lỗi đã xảy ra trong quá trình thu thập dữ liệu và được ghi lại là các giá trị bị thiếu.
 
 
Nguồn: https://support.minitab.com/