Dữ liệu ngoại lai – outlier là gì? Những cách xử lý dữ liệu này trong phân tích

SPSS, Tin tức
Trang chủ » SPSS » Dữ liệu ngoại lai – outlier là gì? Những cách xử lý dữ liệu này trong phân tích

Dữ liệu ngoại lai – outlier là gì? Những cách xử lý dữ liệu này trong phân tích

Du-lieu-ngoai-lai-outlier-la-gi_-Nhung-cach-xu-ly-du-lieu-nay-trong-phan-tich

Outlier là gì? Trong quá trình làm việc với dữ liệu, đôi khi bạn sẽ bắt gặp những giá trị khác biệt rõ rệt so với phần lớn các điểm dữ liệu còn lại – đó chính là dữ liệu ngoại lai (outlier). Những giá trị này có thể do lỗi nhập liệu, yếu tố khách quan đặc biệt, hay đơn giản là những sự kiện hiếm gặp trong thực tế. Việc phát hiện và xử lý đúng cách các outlier đóng vai trò quan trọng trong việc đảm bảo tính chính xác của phân tích dữ liệu và mô hình dự đoán.

Thống kê cho thấy, một Data Analyst dành tới 80% thời gian để làm sạch dữ liệu – và phần lớn trong đó là phát hiện, phân loại và xử lý các giá trị ngoại lai. Một tập dữ liệu sạch giúp kết quả phân tích phản ánh đúng thực tế và hỗ trợ ra quyết định chính xác hơn.

1. Outlier là gì và tại sao cần quan tâm?

Outlier là các giá trị trong tập dữ liệu có sự chênh lệch lớn so với đa số giá trị còn lại. Nói cách khác, đây là những điểm dữ liệu “lạc lõng”, không tuân theo quy luật chung. Nếu không được xử lý, chúng có thể gây sai lệch nghiêm trọng đến giá trị trung bình, phương sai và độ chính xác của các mô hình dự báo.

Tuy nhiên, không phải mọi outlier đều nên bị loại bỏ. Một số giá trị ngoại lai có thể tiết lộ insight giá trị — chẳng hạn như hành vi đặc biệt của khách hàng, sự cố kỹ thuật, hay xu hướng thị trường đột biến.

  • Ảnh hưởng tiêu cực: Làm sai lệch mô hình, gây thiên lệch thống kê, giảm độ tin cậy của kết quả phân tích.
  • Giá trị tích cực: Cung cấp thông tin hiếm, giúp khám phá nguyên nhân sâu xa hoặc cơ hội mới.

2. Các cách phát hiện dữ liệu ngoại lai (Outlier Detection)

Phát hiện outlier là bước nền tảng trước khi bạn quyết định giữ hay loại bỏ chúng. Dưới đây là các phương pháp phổ biến mà Data Analyst thường sử dụng:

2.1. Quan sát trực tiếp trong bảng dữ liệu

Cách đơn giản nhất là sắp xếp dữ liệu (sort) và kiểm tra bằng mắt. Ví dụ, cột “Tuổi” có giá trị 470 tuổi rõ ràng là lỗi nhập liệu. Phương pháp này chỉ phù hợp với các tập dữ liệu nhỏ vì tốn thời gian và không định lượng được mức độ ngoại lai.

2.2. Dùng biểu đồ trực quan hóa dữ liệu

Trực quan hóa dữ liệu giúp phát hiện các giá trị bất thường nhanh chóng:

  • Boxplot: Hiển thị các giá trị ngoại lai bằng những chấm ở hai đầu biểu đồ.
  • Histogram: Các giá trị ngoại lai tách biệt hẳn khỏi phần lớn phân phối dữ liệu.
  • Scatter plot: Phát hiện outlier trong phân tích đa biến, những điểm nằm xa khỏi cụm dữ liệu chính.

Ví dụ, trong phân tích thị trường chứng khoán Brazil, cổ phiếu của Petrobras giảm 15,8% trong khi chỉ số chung giảm 8,8% – một giá trị ngoại lai cần được xem xét để hiểu nguyên nhân sâu hơn.

outlier là gì

2.3. Phát hiện bằng các phương pháp thống kê

Khi dữ liệu có quy mô lớn, bạn cần các công cụ định lượng để phát hiện outlier chính xác hơn.

a. Dựa vào giá trị trung bình và độ lệch chuẩn

Trong phân phối chuẩn, khoảng 95% dữ liệu nằm trong phạm vi ±2 độ lệch chuẩn quanh giá trị trung bình. Những điểm vượt ngoài ±2 hoặc ±3 độ lệch chuẩn được coi là ngoại lai. Ví dụ, trong tập dữ liệu về mức tiêu hao nhiên liệu (km/l), những xe có hiệu suất vượt hơn 2 độ lệch chuẩn so với trung bình là các outlier.

Dua vao gia tri trung binh va do lech chuan

b. Sử dụng Z-score

Z-score cho biết một điểm dữ liệu cách giá trị trung bình bao nhiêu độ lệch chuẩn. Nếu |Z| ≥ 3, đó là dấu hiệu rõ ràng của outlier. Công thức tính:

Z = (X – μ) / σ

Z-score càng xa 0, giá trị càng bất thường. Tuy nhiên, phương pháp này chỉ phù hợp khi dữ liệu gần với phân phối chuẩn.

Su dung Z score

c. Phương pháp Interquartile Range (IQR)

Phương pháp IQR sử dụng phần tư (Q1, Q3) để xác định khoảng giá trị bình thường. Dữ liệu nằm ngoài phạm vi [Q1 – 1.5×IQR, Q3 + 1.5×IQR] được coi là ngoại lai.

Ví dụ: Nếu Q1 = 1.714 và Q3 = 1.936, thì IQR = 0.222. Khi đó:

  • Ngưỡng dưới = 1.714 – 1.5×0.222 = 1.381
  • Ngưỡng trên = 1.936 + 1.5×0.222 = 2.269

Những giá trị nhỏ hơn 1.381 hoặc lớn hơn 2.269 được xem là outlier. Đây là cách phổ biến nhất do không yêu cầu phân phối chuẩn.

Phuong phap Interquartile Range

d. Kiểm định giả thuyết (Hypothesis Testing)

Phương pháp Grubbs’ Test là một trong những kỹ thuật phổ biến nhất. Kiểm định này giúp xác định liệu trong tập dữ liệu có một điểm nằm ngoài phân phối chuẩn hay không.

  • H0: Không có giá trị ngoại lai.
  • H1: Có ít nhất một giá trị ngoại lai.

Nếu p-value < 0.05, bạn có thể kết luận rằng tồn tại giá trị ngoại lai. Tuy nhiên, cần lưu ý tránh lỗi “masking” (bỏ sót outlier) hoặc “swamping” (phát hiện sai outlier) khi xác định số lượng ngoại lệ cần kiểm tra.

Kiểm định giả thuyết

3. Cách xử lý dữ liệu ngoại lai trong phân tích

Sau khi phát hiện, việc tiếp theo là quyết định nên giữ lại hay loại bỏ các outlier. Tùy thuộc vào mục tiêu nghiên cứu và bản chất của dữ liệu, bạn có thể chọn một trong các hướng xử lý sau:

  • Loại bỏ giá trị ngoại lai: Khi chắc chắn đó là lỗi nhập liệu hoặc giá trị không đại diện cho hiện tượng cần phân tích.
  • Chuyển đổi dữ liệu (Transformation): Áp dụng log, square root hoặc normalization để giảm ảnh hưởng của outlier.
  • Thay thế bằng giá trị trung vị (median): Dùng trong các trường hợp giá trị bất thường nhưng không thể loại bỏ hoàn toàn.
  • Sử dụng mô hình robust: Các thuật toán như Robust Regression, Decision Tree hoặc Random Forest có khả năng chịu ảnh hưởng của outlier tốt hơn.
  • Giữ lại để phân tích chuyên sâu: Khi outlier phản ánh hiện tượng đặc biệt hoặc insight quan trọng (ví dụ: khách hàng VIP, sự cố kỹ thuật bất thường).

4. Khi nào không nên loại bỏ outlier?

Outlier không phải lúc nào cũng là “rác dữ liệu”. Ví dụ, nếu bạn đang phân tích mức lương trong công ty và thấy một giá trị vượt trội gấp 10 lần phần còn lại – có thể đó là mức lương của CEO. Đây là giá trị hợp lệ, phản ánh thực tế và cần được giữ lại để mô hình không mất tính đại diện.

5. Kết luận

Hiểu và xử lý đúng cách dữ liệu ngoại lai giúp Data Analyst đảm bảo độ tin cậy của kết quả phân tích, hạn chế sai lệch thống kê và tăng khả năng dự đoán chính xác. Outlier không chỉ là “nhiễu” mà còn có thể là “tín hiệu” – nếu bạn biết cách khai thác chúng đúng hướng.

Để thành thạo hơn trong việc phân tích và xử lý dữ liệu thực tế, bạn có thể tham khảo khóa học Data Analysis của Tomorrow Marketers – nơi bạn được học cách đọc hiểu, làm sạch và biến dữ liệu thành quyết định kinh doanh có giá trị.

Bài viết này hữu ích với bạn?

Leave a Reply

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Bài liên quan
error: Nội dung bản quyền !!

Nhập Số điện thoại của bạn và nhận mã

GIẢM 10%

DUY NHẤT HÔM NAY!