Trí tuệ nhân tạo tạo sinh (Generative AI – gọi tắt là Gen AI) đang là động lực chính thúc đẩy những bước tiến lớn trong nhiều ngành công nghiệp như sản xuất, bán lẻ và chăm sóc sức khỏe.
Nhờ giá trị thực tiễn cao, AI tạo sinh đang ngày càng được ứng dụng rộng rãi. Theo khảo sát mới nhất từ McKinsey, 71% tổ chức trên toàn cầu tham gia đánh giá hiện đang sử dụng AI tạo sinh thường xuyên trong ít nhất một hoạt động kinh doanh của mình.
Tuy nhiên, việc triển khai các ứng dụng AI tạo sinh trong thực tế không hề đơn giản. Một trong những thách thức lớn nhất là làm sao để đánh giá hiệu quả hoạt động của mô hình AI tạo sinh trong từng bài toán cụ thể. Không giống như AI truyền thống – vốn có thể được đánh giá bằng các chỉ số tự động tương đối đơn giản, việc đánh giá AI tạo sinh đòi hỏi cách tiếp cận phức tạp và toàn diện hơn.
Bài viết này sẽ phân tích những thách thức trong đánh giá mô hình AI tạo sinh, các yếu tố cần cân nhắc trước khi xây dựng khung đánh giá và quy trình các bước triển khai.
1. Những thách thức khi đánh giá mô hình AI tạo sinh
Các chỉ số đánh giá truyền thống như độ chính xác, độ bao phủ (recall), hoặc độ đặc hiệu (specificity) là chưa đủ để phản ánh đúng hiệu quả của mô hình AI tạo sinh. Lý do là bởi các mô hình này sở hữu những đặc trưng riêng khiến quy trình đánh giá trở nên phức tạp và khó chuẩn hóa hơn. Dưới đây là một số thách thức điển hình:
1.1. Tính chủ quan (Subjectivity)
Việc đánh giá đầu ra của AI tạo sinh thường mang nặng yếu tố cảm tính. Các tiêu chí như tính sáng tạo, tính tự nhiên hay độ mạch lạc của văn bản rất khó lượng hóa bằng các chỉ số định lượng, và thường cần đến sự đánh giá thủ công từ con người.
1.2. Thiên kiến trong dữ liệu huấn luyện (Bias in datasets)
Mô hình AI tạo sinh thường được huấn luyện trên khối lượng dữ liệu khổng lồ có gán nhãn. Tuy nhiên, việc kiểm soát hoặc loại bỏ các thiên kiến tiềm ẩn trong tập dữ liệu là điều không dễ dàng. Nếu không được xử lý kỹ, mô hình có thể kế thừa và phóng đại những thiên kiến xã hội sẵn có, ảnh hưởng đến chất lượng đầu ra và gây rủi ro trong ứng dụng thực tế.
1.3. Khó mở rộng đánh giá (Scalability)
Việc đánh giá mô hình một cách toàn diện đòi hỏi lượng tài nguyên lớn, điều này rất khó để mở rộng khi áp dụng cho nhiều trường hợp sử dụng khác nhau. Thách thức càng gia tăng khi triển khai các khung theo dõi liên tục (continuous monitoring) nhằm đánh giá hiệu suất mô hình AI tạo sinh theo thời gian thực.
1.4. Thiếu khả năng lý giải (Interpretability)
AI tạo sinh thường bị ví như một “hộp đen” (black box) – rất khó để hiểu được vì sao mô hình lại sinh ra một đầu ra cụ thể. Sự thiếu minh bạch này gây khó khăn trong việc kiểm tra, phân tích lỗi và cải thiện mô hình một cách có cơ sở.
2. Những yếu tố cần cân nhắc trước khi xây dựng khung đánh giá AI tạo sinh
Mặc dù việc đánh giá AI tạo sinh gặp nhiều thách thức, các chuyên gia có thể khắc phục bằng cách xây dựng một quy trình đánh giá toàn diện. Tuy nhiên, trước khi bắt tay vào thiết kế khung đánh giá, cần lưu ý một số yếu tố quan trọng sau:
2.1. Loại tác vụ (Task type)
Mỗi tác vụ tạo sinh – như sinh văn bản, tóm tắt nội dung, tổng hợp hình ảnh hay hoàn thiện mã – đều có yêu cầu và tiêu chí đánh giá riêng. Do đó, cần xây dựng chiến lược đánh giá phù hợp với từng loại tác vụ. Ví dụ: đối với văn bản cần đo lường tính mạch lạc (coherence), với hình ảnh là độ chân thực (realism), và với mã là độ chính xác cú pháp (code accuracy).
2.2. Loại dữ liệu (Data type)
AI tạo sinh thường xử lý dữ liệu phi cấu trúc như văn bản, hình ảnh hoặc video. Mỗi loại dữ liệu yêu cầu chỉ số đánh giá riêng biệt. Ví dụ, với văn bản, cần đo độ đa dạng ngôn ngữ (linguistic diversity); với hình ảnh, cần đánh giá độ nét hoặc độ sáng (image clarity, brightness).
2.3. Độ phức tạp tính toán (Computational complexity)
Việc đánh giá mô hình có thể tiêu tốn đáng kể tài nguyên, đặc biệt với các mô hình phức tạp. Vì vậy, khi thiết kế khung đánh giá, cần tính đến chi phí tính toán để đảm bảo khả thi trong việc triển khai liên tục mà không gây quá tải.
2.4. Tính giải thích & Khả năng quan sát (Interpretability & Observability)
Trong bối cảnh AI cần hoạt động có trách nhiệm, việc hiểu rõ cách mô hình tạo sinh đưa ra kết quả là rất quan trọng. Tính giải thích (interpretability) và khả năng quan sát (observability) giúp phát hiện thiên kiến (bias), từ đó nâng cao tính minh bạch và hỗ trợ ra quyết định tốt hơn.
3. Làm thế nào để xây dựng khung đánh giá cho AI tạo sinh?
Khi đã nắm rõ các yếu tố trên, có thể bắt đầu xây dựng một khung đánh giá toàn diện cho hệ thống AI tạo sinh, áp dụng xuyên suốt vòng đời phát triển. Dưới đây là các bước khởi đầu cần thiết:
3.1. Xác định bài toán và mục tiêu đánh giá
Bước đầu tiên là xác định rõ bài toán cần giải quyết và mục tiêu của việc đánh giá. Cần làm rõ mô hình được phát triển để làm gì – sinh nội dung, tạo hình ảnh cho truyền thông, hay hỗ trợ lập trình phần mềm – bởi mỗi mục tiêu sẽ có yêu cầu và tiêu chí thành công riêng.
Khi mục tiêu được xác định, cần xây dựng các tiêu chí đánh giá cụ thể, gắn với cả khía cạnh kỹ thuật và trải nghiệm người dùng. Việc này sẽ quyết định lựa chọn nguồn dữ liệu, chỉ số đánh giá và phương pháp phù hợp với mục tiêu cuối cùng của mô hình.
3.2. Xác định các tiêu chuẩn đánh giá hiệu suất (Performance Benchmarks)
Sau khi xác định được các yếu tố cần đo lường, bước tiếp theo là lựa chọn các tiêu chuẩn đánh giá hiệu suất phù hợp (performance benchmarks) để xác định liệu mô hình AI tạo sinh có đạt được mục tiêu đề ra hay không. Ngoài loại tác vụ mà mô hình xử lý, việc lựa chọn tiêu chuẩn đánh giá còn phụ thuộc vào loại mô hình AI tạo sinh mà bạn phát triển. Ba nhóm mô hình phổ biến hiện nay bao gồm:
- Mô hình ngôn ngữ lớn (Large Language Model – LLM)
- Hệ thống tăng cường truy xuất (Retrieval-Augmented Generation – RAG)
- Khung mô hình đa phương thức, như Mô hình Ngôn ngữ Thị giác (Vision-Language Model – VLM)
3.2.1. Mô hình ngôn ngữ lớn (Large Language Model – LLM)
Việc đánh giá hiệu suất của LLM thường xoay quanh việc thiết lập các bộ tiêu chuẩn (benchmark) cho các yếu tố như: mức độ ảo giác thông tin (hallucination), mức độ phù hợp của phản hồi (response relevance), và nguy cơ tạo ra nội dung độc hại (toxicity). Các chuyên gia cần xác định hiệu quả thực tế của các mô hình hàng đầu, để từ đó xây dựng những mốc tham chiếu được ngành công nhận.
Cách tiếp cận này cũng giúp xác định các bộ chỉ số và tập dữ liệu (dataset) tiêu chuẩn mà nhà phát triển thường sử dụng. Ví dụ, bộ dữ liệu Massive Multitask Language Understanding (MMLU) có thể dùng để kiểm tra mức độ hiểu biết của mô hình về nhiều lĩnh vực khác nhau – từ khoa học kỹ thuật (STEM), khoa học xã hội đến nhân văn – bằng cách kết hợp giữa kiến thức nền và khả năng giải quyết vấn đề.
3.2.2. Mô hình tăng cường truy xuất (Retrieval-Augmented Generation – RAG)
Các mô hình RAG nâng cao khả năng của LLM bằng cách kết hợp giữa truy xuất thông tin (retrieval) và sinh văn bản (text generation). Do đó, các tiêu chí đánh giá cần tập trung vào chất lượng truy xuất, tốc độ phản hồi, và mức độ phù hợp với các truy vấn theo lĩnh vực cụ thể.
Một bộ dữ liệu chuẩn thường được sử dụng để đánh giá hiệu suất của mô hình RAG là RAGBench.
3.2.3. Mô hình ngôn ngữ thị giác (Vision-Language Model – VLM)
Các mô hình đa phương thức như VLM yêu cầu bộ tiêu chuẩn đánh giá khả năng hiểu và liên kết thông tin giữa nhiều định dạng dữ liệu (cross-modal understanding). Điều này có thể được thực hiện bằng cách tính toán các chỉ số tương đồng (similarity metrics) giữa văn bản, hình ảnh, âm thanh và các định dạng khác – nhằm kiểm tra mức độ đồng bộ giữa chúng.
Ví dụ, các nhà phát triển có thể đánh giá chất lượng mô tả ảnh (image captioning) bằng cách sử dụng điểm tương đồng (similarity score) làm tiêu chuẩn, để đo hiệu suất của một mô hình VLM phổ biến là Contrastive Language-Image Pre-training (CLIP). Cách tính điểm này là so sánh giữa mô tả do mô hình tạo ra và nhãn gốc (ground-truth labels).
Điểm tương đồng càng cao giữa nhãn gốc và nhãn dự đoán, hiệu suất mô hình càng tốt. Hai bộ dữ liệu đánh giá (benchmark datasets) phổ biến được sử dụng cho loại mô hình này là COCO và ImageNet.
3.3. Thu thập dữ liệu (Data Collection)
Thu thập dữ liệu là bước tiếp theo trong quá trình xây dựng khung đánh giá cho mô hình AI tạo sinh. Dữ liệu chất lượng cao, có tính đại diện là yếu tố then chốt để đánh giá chính xác hiệu suất của mô hình. Tập dữ liệu thu thập cần phản ánh đúng các tình huống sử dụng thực tế, đồng thời bao quát được sự đa dạng và phức tạp của các loại đầu vào mà mô hình có thể gặp phải.
Ví dụ: khi đánh giá một mô hình ngôn ngữ phục vụ các tác vụ hiểu ngôn ngữ tự nhiên (natural language tasks), tập dữ liệu cần bao gồm nhiều dạng câu hỏi hội thoại với ngữ điệu, cách diễn đạt đa dạng.
Bên cạnh đó, độ tin cậy của nguồn dữ liệu và các yếu tố đạo đức cũng rất quan trọng. Dữ liệu thu thập cần tránh chứa các thiên kiến (bias) có thể làm sai lệch kết quả đầu ra. Điều này đòi hỏi sự chú ý đến sự đa dạng về nhân khẩu học, góc nhìn văn hóa và nội dung chủ đề.
Cuối cùng, phương pháp thu thập dữ liệu phải tuân thủ các tiêu chuẩn về quyền riêng tư và quy định pháp lý – đặc biệt nếu liên quan đến dữ liệu nhạy cảm. Một tập dữ liệu chất lượng, phù hợp sẽ giúp khung đánh giá phản ánh sát hơn cách mô hình vận hành trong thực tế.
3.4. Tiền xử lý dữ liệu (Data Preprocessing)
Sau khi thu thập dữ liệu, bước tiếp theo là tiền xử lý – một khâu quan trọng giúp đảm bảo chất lượng, tính nhất quán và khả năng phân tích dữ liệu. Quy trình này bắt đầu bằng việc làm sạch dữ liệu (data cleaning), loại bỏ các thông tin nhiễu, không liên quan hoặc trùng lặp để tạo ra một tập dữ liệu gọn gàng, phù hợp với mục đích sử dụng.
Một bước không thể thiếu khác là gán nhãn dữ liệu (data annotation), trong đó dữ liệu được dán nhãn theo các thuộc tính cụ thể tùy theo nhiệm vụ của mô hình. Chẳng hạn, với mô hình ngôn ngữ phục vụ tác vụ hỏi – đáp, dữ liệu có thể được gán nhãn bằng các câu trả lời do chuyên gia dự đoán người dùng thường sẽ hỏi. Đối với VLM, dữ liệu có thể được gán nhãn để thể hiện mối quan hệ giữa hình ảnh và đối tượng, hoặc mức độ khớp giữa hình ảnh và phần mô tả văn bản.
Quá trình gán nhãn cần được thực hiện cẩn thận bởi yếu tố chủ quan ảnh hưởng lớn. Ví dụ, mô tả “đúng” cho một bức ảnh dùng trong đánh giá mô hình tạo mô tả ảnh (image-captioning) có thể khác nhau giữa các người gán nhãn.
Do đó, để đảm bảo tính nhất quán, cần có sự rà soát thường xuyên từ chuyên gia và các tiêu chuẩn gán nhãn rõ ràng nhằm dẫn dắt quá trình thực hiện.
3.5. Kỹ thuật đặc trưng (Feature Engineering)
Sau khi hoàn tất bước tiền xử lý, bước tiếp theo là trích xuất các đặc trưng phù hợp từ tập dữ liệu để sử dụng làm đầu vào chính cho khung đánh giá AI tạo sinh. Quá trình này gọi là kỹ thuật đặc trưng (feature engineering) – nhằm xác định và chuyển đổi các đặc điểm dữ liệu để tăng độ chính xác của đánh giá.
Mục tiêu là lựa chọn và xây dựng các đặc trưng phản ánh đúng những yếu tố mà mô hình tạo sinh cần tối ưu.
Khác với các mô hình học máy (machine learning – ML) truyền thống như hồi quy (regression) hay cây quyết định (decision tree), vốn sử dụng các đặc trưng rõ ràng như độ tuổi, thu nhập hay giá trị giao dịch để dự đoán kết quả, mô hình AI tạo sinh yêu cầu các đặc trưng trừu tượng hơn. Ví dụ, khi sinh ảnh hoặc văn bản, mô hình cần học được những đặc điểm liên quan đến “mức độ tự nhiên”, “tính sáng tạo” hoặc “sự khớp ngữ nghĩa” (semantic alignment) – những yếu tố khó định nghĩa và đo lường bằng công thức rõ ràng.
Chính vì vậy, việc xây dựng đặc trưng trong AI tạo sinh đòi hỏi nhiều công cụ hỗ trợ tự động hơn, giúp tạo ra các đặc trưng có khả năng phản ánh tốt ngữ cảnh và chất lượng đầu ra của mô hình.
Các biểu diễn vector (embeddings) đóng vai trò quan trọng trong quá trình trích xuất đặc trưng (feature engineering) cho các mô hình AI tạo sinh. Với dữ liệu phi cấu trúc như văn bản hoặc hình ảnh, chuyên gia có thể sử dụng các thuật toán AI phù hợp để tạo ra các biểu diễn vector số phản ánh đặc tính ngữ nghĩa (semantic properties) của mẫu dữ liệu đó.
Ví dụ, các mạng nơ-ron tích chập (Convolutional Neural Networks – CNNs) thường được dùng để tạo các biểu diễn vector số cho hình ảnh, trong khi Word2Vec được dùng phổ biến để tạo các biểu diễn vector số cho văn bản.
Trong các mô hình chuyển văn bản thành hình ảnh (text-to-image), hệ thống có thể đo độ tương đồng giữa các biểu diễn vector số của văn bản và hình ảnh để đánh giá mức độ khớp giữa hình ảnh sinh ra và mô tả văn bản ban đầu.
4. Lựa chọn mô hình nền tảng (foundation model)
Việc xây dựng một mô hình AI tạo sinh hoàn toàn từ đầu là cực kỳ tốn kém về chi phí và tài nguyên tính toán. Vì vậy, một cách tiếp cận thực tế hơn là sử dụng các mô hình nền tảng mã nguồn mở (open-source foundation models) phù hợp với mục tiêu đánh giá của bạn.
Những mô hình này đã được huấn luyện trước (pre-trained) trên các tập dữ liệu quy mô lớn, nên sở hữu hiểu biết rộng về nhiều chủ đề khác nhau. Chẳng hạn:
- GPT-3 (OpenAI): mô hình nền tảng nổi bật cho tác vụ sinh văn bản (text generation).
- CLIP, DALL-E: các mô hình ngôn ngữ-thị giác (VLMs) nổi bật, dùng cho tác vụ mô tả hình ảnh (image captioning) hoặc sinh ảnh từ văn bản (image generation).
Việc lựa chọn mô hình nền tảng (foundation model) ảnh hưởng trực tiếp đến chiến lược đánh giá mà bạn áp dụng. Mỗi mô hình có điểm mạnh, kiến trúc và lượng kiến thức được huấn luyện trước khác nhau – tất cả đều tác động đến chỉ số và phương pháp đánh giá phù hợp.
Ví dụ, cả DALL-E và Stable Diffusion đều là mô hình chuyển văn bản thành hình ảnh (text-to-image). Tuy nhiên, chúng khác biệt về kiến trúc và phong cách hình ảnh tạo ra. Do đó, cần chọn mô hình phù hợp với mục tiêu sử dụng và các tiêu chí đánh giá đã xác định ở các bước trước đó.
5. Tinh chỉnh mô hình (Fine-tuning)
Khi đã lựa chọn được mô hình nền tảng, bạn có thể sử dụng API của mô hình đó như một thành phần nền để xây dựng hệ thống AI tạo sinh của riêng mình. Ví dụ: có thể tạo chatbot sinh văn bản bằng cách tích hợp API GPT-3.
Tuy nhiên, nếu chỉ dựa vào mô hình nền tảng mà không tinh chỉnh cho bài toán cụ thể, chất lượng đầu ra có thể không đạt yêu cầu – đặc biệt trong các lĩnh vực chuyên biệt. Lý do là vì kiến thức trong mô hình nền có tính tổng quát, chưa đủ để xử lý những truy vấn có tính chuyên môn cao. Chẳng hạn, nếu bạn muốn tạo một chatbot dành cho bác sĩ, bạn cần tinh chỉnh lại GPT-3 bằng dữ liệu chuyên ngành y tế để đảm bảo phản hồi chính xác và phù hợp hơn.
Tinh chỉnh mô hình (fine-tuning) là chiến lược quan trọng để điều chỉnh mô hình nền tảng cho phù hợp với các tác vụ đánh giá cụ thể. Phương pháp này sử dụng dữ liệu chuyên biệt để điều chỉnh các tham số bên trong của mô hình đã huấn luyện sẵn, từ đó cải thiện hiệu quả với các bài toán như: tóm tắt hồ sơ bệnh án, trả lời câu hỏi chuyên sâu về y khoa hoặc lĩnh vực chuyên môn.
Học tăng cường với phản hồi từ con người (Reinforcement Learning with Human Feedback – RLHF) là một phương pháp tinh chỉnh (fine-tuning) hiệu quả, kết hợp phản hồi của con người để cải thiện mô hình nền tảng. Cụ thể, con người sẽ đánh giá và chấm điểm cho các đầu ra của mô hình AI tạo sinh. Sau đó, một mô hình phần thưởng (reward model) sẽ sử dụng những điểm số này để điều chỉnh hiệu năng của mô hình tạo sinh.
6. Đánh giá
Sau khi tinh chỉnh mô hình, bước tiếp theo là đánh giá hiệu năng, sử dụng các bộ dữ liệu chuẩn (benchmark dataset) và chỉ số đã được xác định ở bước thứ hai. Để đảm bảo toàn diện, nên kết hợp cả kỹ thuật đánh giá tự động và đánh giá bởi con người.
Kỹ thuật tự động bao gồm việc tính toán các chỉ số như BLEU, ROUGE, hoặc FID cho các tác vụ xử lý ngôn ngữ tự nhiên. Ngoài ra, có thể sử dụng các biểu diễn vector (embedding) để tính độ tương đồng giữa đầu ra của mô hình và mẫu chuẩn (ground-truth).
Đánh giá bởi con người có thể được thực hiện theo hai hướng: định lượng (quantitative) và định tính (qualitative). Ví dụ, ở góc độ định lượng, con người sẽ chấm điểm cho các phản hồi từ LLM, nhằm phản ánh mức độ phù hợp giữa câu trả lời và truy vấn của người dùng. Còn ở khía cạnh định tính, đánh giá tập trung vào các nhận xét mang tính mô tả, cảm nhận chủ quan. Người đánh giá có thể đưa ra bình luận chi tiết, phân tích sâu về cách mô hình phản hồi – từ đó cung cấp những góc nhìn giá trị hơn về hành vi và chất lượng đầu ra của mô hình.
7. Giám sát liên tục (Continuous Monitoring)
Giám sát liên tục là bước cuối cùng trong quy trình xây dựng khung đánh giá AI tạo sinh. Mục tiêu là đảm bảo hiệu suất của mô hình luôn ổn định và phù hợp với mục tiêu đề ra trong suốt vòng đời triển khai.
Các nhà phát triển có thể xây dựng hệ thống giám sát (monitoring pipeline) để theo dõi đầu ra của mô hình một cách thường xuyên, nhằm phát hiện các vấn đề như: thiên kiến (bias), sự sai lệch hiệu suất theo thời gian (performance drift), hoặc vi phạm tiêu chuẩn đạo đức đã đề ra.
Các công cụ tự động có thể giúp cảnh báo sớm các bất thường, trong khi đánh giá định kỳ bởi con người vẫn đóng vai trò quan trọng trong việc xem xét các yếu tố mang tính chủ quan hơn – như mức độ sáng tạo hay sự hài lòng của người dùng.
Nguồn: Encord