Ai cũng muốn hiểu rõ “bên trong” một mô hình học máy (machine learning – ML) đang thực sự hoạt động như thế nào. Trong bối cảnh các hệ thống AI/ML ngày càng đóng vai trò quan trọng trong hạ tầng doanh nghiệp, vấn đề quản trị đang trở thành ưu tiên hàng đầu – đặc biệt khi các tổ chức muốn xây dựng quy trình vận hành AI/ML bài bản. Tuy nhiên, do bản chất “hộp đen” của các mô hình ML, việc minh bạch hóa hoạt động bên trong vẫn là một thách thức lớn – nhất là với các bên liên quan không chuyên về kỹ thuật. Việc chủ động giám sát và phân tích thiên kiến chính là bước đầu tiên để đảm bảo hệ thống AI hoạt động minh bạch, công bằng và đáng tin cậy.
1. Dữ liệu có tính thiên kiến (Data Bias)
1.1 Định nghĩa
Thiên kiến trong dữ liệu là sự thiên kiến tồn tại trong tập dữ liệu mà chúng ta sử dụng để huấn luyện và đánh giá mô hình. Đây chính là thiên kiến nằm trong “sự thật nền tảng” (ground truth). Việc xác định thiên kiến dữ liệu phục vụ ít nhất hai mục đích: cho phép chúng ta kiểm tra tập dữ liệu huấn luyện xem có tồn tại thiên kiến hay không, và theo dõi kết quả thực tế trong lĩnh vực mà mô hình học máy đang được sử dụng để dự đoán. Điều này cũng có thể đóng vai trò như một công cụ kiểm tra thiên kiến trong các quyết định kinh doanh liên quan đến các nhóm nhân khẩu học (demographics) khác nhau.
1.2. Xác định kết quả tích cực và tiêu cực
Việc xác định đâu là kết quả tích cực (positive outcome) và tiêu cực (negative outcome) sẽ khác nhau tùy theo loại kết quả mà mô hình đang dự đoán. Ví dụ, trong trường hợp mô hình dự đoán phê duyệt khoản vay, thì việc được duyệt vay là một kết quả tích cực, còn bị từ chối là kết quả tiêu cực – cách phân loại này khá trực quan.
- Với những bài toán nhị phân (binary classification) như vậy, việc phân tách kết quả tích cực và tiêu cực có thể được thực hiện dễ dàng dựa trên nhãn lớp (class label).
- Tương tự, với các bài toán phân loại nhiều lớp (multi-class classification), ta vẫn có thể xác định một kết quả được xem là tích cực so với các kết quả còn lại.
- Tuy nhiên, mọi thứ trở nên phức tạp hơn nếu mô hình dự đoán giá trị liên tục – ví dụ như số tiền được duyệt cho một khoản vay. Trong trường hợp này, cần đặt một ngưỡng cụ thể (threshold) để phân loại kết quả là tích cực hay tiêu cực, tương tự như cách xử lý với đầu ra xác suất trong các mô hình suy luận xác suất (probabilistic inference), chẳng hạn như hồi quy logistic (logistic regression).
1.3. Xử lý các đặc trưng (feature)
Nguyên tắc tương tự cũng được áp dụng cho các đặc trưng (feature), hay các biến nhân khẩu học (demographic variables), khi ta muốn đo lường mức độ thiên kiến. Quy trình bao gồm:
1. Chọn đặc trưng phù hợp: Trước tiên, ta cần xác định các đặc trưng có khả năng gây thiên kiến (ví dụ: giới tính, độ tuổi, thu nhập…).
2. Phân nhóm đặc trưng: Với mỗi đặc trưng, cần chia thành hai nhóm:
- Nhóm ưu tiên: facet_a
- Nhóm không ưu: facet_d
Việc gán nhãn cho các đặc trưng cũng tuân theo nguyên tắc tương tự như với sự thật nền tảng:
- Dữ liệu nhị phân (binary): Gán nhãn trực tiếp 1-1 (một giá trị là tích cực, giá trị còn lại là tiêu cực).
- Dữ liệu đa lớp (multi-class): Cần xác định lớp nào là kết quả tích cực. Có thể cần đánh giá lặp để đảm bảo chính xác.
- Dữ liệu liên tục (continuous): Cần thiết lập một ngưỡng phân tách rõ ràng.
Giả sử ta đang phân tích đặc trưng thu nhập (income). Có thể đặt ngưỡng là trên 100.000 USD/năm, và coi đây là nhóm thu nhập cao – nhóm ưu tiên trong phân tích thiên kiến.
1.4. Tạo tập dữ liệu để đánh giá thiên kiến
Sau khi đã gán nhãn cho sự thật nền tảng và các đặc trưng, bước tiếp theo là xây dựng hai mảng dữ liệu để phục vụ phân tích:
- facet_a_trues: chứa các giá trị đầu ra thực tế tương ứng với nhóm ưu tiên (facet_a)
- facet_d_trues: chứa các giá trị đầu ra thực tế tương ứng với nhóm không ưu tiên (facet_d)
Cách thực hiện: Với mỗi đặc trưng cần phân tích, ta sẽ lấy giá trị sự thật nền tảng tương ứng cho từng mẫu dữ liệu thuộc nhóm facet_a và facet_d, lần lượt đưa vào hai mảng trên.
Việc này cần được thực hiện riêng biệt cho từng đặc trưng đang được phân tích về độ thiên kiến. Đây là cơ sở để tiếp tục tính toán các chỉ số đo lường bias trong bước kế tiếp.
Một số chỉ số để đo lường sự sai lệch giữa hai nhóm dữ liệu:
Khi đã phân chia dữ liệu theo nhóm ưu tiên (facet_a) và không ưu tiên (facet_d), ta có thể sử dụng một số chỉ số sau để đo mức độ chênh lệch giữa hai nhóm đầu ra:
- Mất cân bằng lớp (Class Imbalance)
- Mất cân bằng nhãn (Label Imbalance)
- Độ phân kỳ Kullback-Leibler (Kullback-Leibler Divergence)
- Độ phân kỳ Jensen-Shannon (Jensen-Shannon Divergence)
- Chuẩn LP (LP-Norm)
- Khoảng cách tổng phương sai (Total Variation Distance)
- Kiểm định Kolmogorov-Smirnov (Kolmogorov-Smirnov Test)
- Chênh lệch nhân khẩu học có điều kiện (Conditional Demographic Disparity)
Xem mô tả chi tiết và công thức tính các chỉ số này tại: https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-measure-data-bias.html
2. Thiên kiến trong mô hình (Model Bias)
Đây là bước mà chúng ta trực tiếp phân tích mô hình để phát hiện thiên kiến. Quy trình phân nhóm vẫn được áp dụng tương tự như khi phân tích dữ liệu, nhưng bổ sung thêm một yếu tố: điểm suy luận (inference scores) của mô hình.
Có thể tiến hành phân tích thiên kiến ngay từ giai đoạn huấn luyện để kiểm tra xem kết quả mô hình có sự chênh lệch đáng kể giữa các nhóm nhân khẩu học hay không. Đồng thời, quá trình này cũng nên được duy trì trong giai đoạn triển khai, nhằm đảm bảo mô hình vẫn hoạt động đúng như kỳ vọng.
Chúng ta tiếp tục áp dụng cùng nguyên tắc gán nhãn như với sự thật nền tảng: phân biệt rõ ràng giữa đầu ra tích cực và tiêu cực dựa trên tiêu chí xác định sẵn.
Kết quả, chúng ta sẽ có bốn mảng dữ liệu:
- Hai mảng lưu sự thật nền tảng: một cho nhóm được ưu tiên (facet_a), một cho nhóm không được ưu tiên (facet_d).
- Hai mảng lưu điểm suy luận từ mô hình: cũng chia theo nhóm ưu tiên và không ưu tiên.
Việc phân tách này cho phép phân tích sâu hơn về mối quan hệ giữa nhãn thực tế và kết quả dự đoán trong từng nhóm. Chúng ta có thể đánh giá các hiện tượng như sự mất cân bằng trong tỷ lệ dương tính giả (false positives), phản ánh khả năng một nhóm có thể được mô hình “ưu ái” hơn so với nhóm còn lại.
Một số chỉ số để để đánh giá thiên kiến mô hình bao gồm:
- Chênh lệch tỷ lệ nhãn dự đoán kết quả tích cực (Difference in Positive Proportion of Predicted Labels)
- Tác động khác biệt (Disparate Impact)
- Chênh lệch xác suất chấp nhận có điều kiện (Difference in Conditional Acceptance)
- Chênh lệch xác suất từ chối có điều kiện (Difference in Conditional Rejection)
- Chênh lệch độ đặc hiệu (Specificity Difference)
- Chênh lệch tỷ lệ chấp nhận (Difference in Acceptance Rate)
- Chênh lệch tỷ lệ từ chối (Difference in Rejection Rate)
- Chênh lệch độ chính xác (Accuracy Difference)
- Công bằng trong xử lý (Treatment Equity)
- Chênh lệch nhân khẩu học có điều kiện trong nhãn dự đoán (Conditional Demographic Disparity in Predicted Labels)
- Entropy tổng quát (Generalized Entropy)
Xem mô tả chi tiết và công thức tính các chỉ số này tại: https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-measure-data-bias.html
3. Xác định đặc trưng cần kiểm tra thiên kiến
Trong nhiều trường hợp, có những nhóm đặc trưng thuộc nhóm được bảo vệ mà chúng ta cần đặc biệt lưu ý khi kiểm tra thiên kiến. Những đặc trưng này thường được loại bỏ khỏi tập huấn luyện để tránh gây sai lệch, nhưng nếu chúng được sử dụng, thì đây chính là “vùng dữ liệu nhạy cảm” cần được kiểm tra đầu tiên.
Bên cạnh đó, cũng cần xem xét đến các đặc trưng có thể đóng vai trò như một đại diện gián tiếp (proxy) cho một nhóm nhân khẩu học cụ thể. Trong một số lĩnh vực, một giá trị dữ liệu có thể vô tình mang tính đại diện cho một nhóm người (theo giới tính, sắc tộc, thu nhập…). Những đặc trưng gián tiếp này cũng có thể là nguyên nhân tiềm ẩn gây ra thiên kiến và cần được kiểm tra kỹ lưỡng.
Ngoài các đặc trưng rõ ràng, chúng ta cũng có thể tiến hành các phân tích định lượng để xác định các đặc trưng có khả năng gây ra thiên kiến. Như đã thấy, quy trình đánh giá chủ yếu quy về các nhãn nhị phân (binary labels), bất kể kiểu mô hình sử dụng là gì. Điều này cho phép chúng ta áp dụng các chỉ số phân loại kinh điển để đo lường mức độ sai lệch trong kết quả mô hình giữa các nhóm dữ liệu (facets) khác nhau.
Cụ thể, bằng cách tính toán các chỉ số như:
- F1-score
- Recall (tỷ lệ phát hiện đúng)
- Precision (độ chính xác)
- True Positive Rate (độ nhạy mô hình)
- True Negative Rate (tỷ lệ mắc lỗi)
Các chỉ số này giúp đánh giá mức độ sai lệch hiệu suất giữa các nhóm dữ liệu khác nhau. Trên thực tế, nhiều chỉ số đo thiên kiến hiện nay đều được xây dựng dựa trên các chỉ số phân loại này.
Thực hiện suy luận trên tập dữ liệu không nằm trong tập huấn luyện (non-training set) cũng là cách hiệu quả để xác định các đặc trưng cần theo dõi và kiểm tra.
Việc thử nghiệm và điều chỉnh các ngưỡng khác nhau đối với các giá trị liên tục, hoặc các nhãn trong mô hình phân loại đa lớp, cũng có thể mang lại nhiều thông tin hữu ích – dù đó là đối với đặc trưng, sự thật nền tảng, hay điểm số dự đoán của mô hình (model scores).
4. Giám sát khi triển khai
4.1. Các bước đánh giá
1. Chuẩn bị trước: Xác định các đặc trưng (features) cần theo dõi và thiết lập cách phân chia các nhóm nhân khẩu học tương ứng cho quá trình đánh giá thiên kiến.
2. Kết hợp dữ liệu: Tập hợp tất cả đặc trưng cần theo dõi (bao gồm cả những đặc trưng không có trong mô hình), kết hợp với sự thật nền tảng và dự đoán của mô hình.
3. Gán nhãn phân loại:
- Gán nhãn các đặc trưng theo nhóm ưu tiên/không ưu tiên
- Gán nhãn kết quả đầu ra thực tế và kết quả dự đoán theo phân loại tích cực/tiêu cực.
4. Phân chia dữ liệu: Với mỗi đặc trưng nhân khẩu học, tạo 2 mảng dữ liệu
- Một mảng chứa các giá trị sự thật nền tảng đã gán nhãn theo kết quả tích cực hoặc tiêu cực.
- Một mảng chứa các giá trị đầu ra dự đoán đã gán nhãn tương tự.
5. Tính toán chỉ số thiên kiến (bias metrics):
- Phân tích thiên kiến dữ liệu (data bias): sử dụng phân chia đặc trưng và sự thật nền tảng.
- Phân tích thiên kiến mô hình (model bias): sử dụng đầy đủ các phân chia đặc trưng, sự thật nền tảng và kết quả dự đoán.
6. Lưu trữ kết quả: Lưu lại các chỉ số thiên kiến để sử dụng như một chuẩn tham chiếu (baseline) trong giai đoạn triển khai mô hình.
Việc triển khai mô hình trong môi trường sản xuất đòi hỏi một số điều kiện ràng buộc để tổ chức quy trình theo dõi hiệu suất một cách hiệu quả. Khi mô hình được kích hoạt (invoked), cần lưu lại các thành phần sau:
- Các đặc trưng được sử dụng để đưa ra dự đoán,
- Kết quả dự đoán của mô hình
- Một định danh dùng để gán nhãn cho từng mẫu dữ liệu.
Sau khi kết quả thực tế (sự thật nền tảng – ground truth) đã có, cần phải lưu trữ đầy đủ.
Việc thu thập sự thật nền tảng là một phần không thể thiếu trong quy trình quản trị hiệu suất và tính công bằng của mô hình học máy khi đưa vào vận hành thực tế. Điều này giúp đảm bảo rằng các mô hình triển khai không chỉ hoạt động hiệu quả mà còn công bằng với mọi nhóm đối tượng trong hệ thống.
4.2. Các cách theo dõi
Trong giai đoạn huấn luyện mô hình, các chỉ số thiên kiến sẽ được tính toán và lưu lại để sử dụng như một chuẩn tham chiếu trong suốt vòng đời triển khai của mô hình. Việc giám sát thiên kiến có thể được thực hiện theo hai cách, tùy thuộc vào hình thức triển khai:
- Với mô hình xử lý theo lô (batch model): việc giám sát có thể được thực hiện ngay trong quá trình tính điểm hàng loạt (batch scoring), khi sự thật nền tảng đã có sẵn trong pipeline học máy.
- Với mô hình triển khai thông qua API (real-time model): một tác vụ nền (background job) sẽ được khởi chạy khi hệ thống đã thu thập đủ khối lượng sự thật nền tảng cần thiết để phục vụ đánh giá.
Cách làm này đảm bảo việc theo dõi thiên kiến được thực hiện thường xuyên, dù mô hình vận hành theo thời gian thực hay xử lý theo lô định kỳ.
Để so sánh, cần xác định một ngưỡng sai lệch (drift threshold) – tức là mức độ chênh lệch cho phép của các chỉ số so với giá trị chuẩn mà hệ thống vẫn có thể chấp nhận được. Thông thường, ngưỡng này dao động trong khoảng 10–15%. Khi một hoặc nhiều chỉ số vượt quá ngưỡng cho phép, cần thực hiện kiểm tra để xác định nguyên nhân: liệu đây là bất thường trong dữ liệu đầu vào, hay đã đến lúc cần huấn luyện lại mô hình.
Nguồn: Medium