Trí tuệ nhân tạo ngày càng thông minh hơn, nhưng làm thế nào để AI hiểu được thế giới như con người, thay vì chỉ nhận diện từng phần dữ liệu rời rạc? Mô hình Ngôn ngữ Thị giác (Vision-Language Model – VLM) chính là bước tiến quan trọng trong lĩnh vực AI nhờ khả năng xử lý đồng thời văn bản và hình ảnh.
VLM đang trở thành công cụ mạnh mẽ giúp AI không chỉ nhận biết mà còn phân tích và suy luận. Vậy VLM hoạt động như thế nào? Những kỹ thuật và kiến trúc nào giúp chúng đạt được độ chính xác cao? Bài viết này sẽ đi sâu vào các kiến trúc của mô hình ngôn ngữ thị giác (VLM) và các phương pháp học tập được sử dụng trong các mô hình phổ biến như CLIP, Flamingo và VisualBERT.
1. Học tương phản (Contrastive Learning)
Học tương phản là một kỹ thuật giúp mô hình học cách phân biệt giữa các điểm dữ liệu bằng cách nhận biết sự khác nhau giữa chúng. Phương pháp này tính toán điểm tương đồng giữa các mẫu dữ liệu và tối ưu hóa bằng cách giảm thiểu mất mát tương phản (contrastive loss). Đây là phương pháp đặc biệt hữu ích trong học bán giám sát (semi-supervised learning), khi chỉ có một số ít mẫu dữ liệu được gán nhãn và mô hình cần tự suy luận nhãn cho các dữ liệu chưa biết.
Ví dụ, để nhận diện một con mèo, mô hình sẽ so sánh hình ảnh của một con mèo với hình ảnh của một con chó. Mô hình học tương phản có thể phân biệt giữa mèo và chó bằng cách nhận diện các đặc trưng như cấu trúc khuôn mặt, kích thước cơ thể và lông. Sau đó, mô hình sẽ xác định hình ảnh nào gần với hình ảnh gốc hơn (được gọi là “anchor”) và phân loại phù hợp.
1.1. Kiến trúc CLIP
CLIP là một mô hình tiêu biểu áp dụng học tương phản, tính toán độ tương đồng giữa các biểu diễn nhúng của văn bản và hình ảnh thông qua bộ mã hóa văn bản và bộ mã hóa hình ảnh (text & image encoders). CLIP sử dụng quy trình ba bước để thực hiện dự đoán kết quả mà không cần bất kỳ mẫu đào tạo nào (zero-shot prediction):
- Huấn luyện bộ mã hóa văn bản và bộ mã hóa hình ảnh để học cách liên kết các cặp dữ liệu hình ảnh – văn bản.
- Tạo ra tập dữ liệu phân loại dựa trên danh sách từ được định nghĩa trước.
- Ước tính mô tả phù hợp nhất cho một hình ảnh đầu vào để thực hiện dự đoán không cần ví dụ mẫu (zero-shot prediction).
ALIGN là một mô hình tương tự, sử dụng bộ mã hóa hình ảnh và văn bản để tối ưu hóa sự tương đồng giữa các biểu diễn nhúng bằng hàm mất mát tương phản (contrastive loss function).
2. PrefixLM
PrefixLM là một kỹ thuật học máy trong xử lý ngôn ngữ tự nhiên (NLP), thường được sử dụng để tiền huấn luyện mô hình. Phương pháp này tiếp nhận một đoạn văn bản (phần tiền tố – prefix) và học cách dự đoán từ tiếp theo trong chuỗi. Trong các mô hình ngôn ngữ thị giác (VLM), PrefixLM giúp mô hình dự đoán phần tiếp theo của văn bản dựa trên hình ảnh và đoạn văn bản tiền tố tương ứng.
PrefixLM sử dụng Vision Transformer (ViT) để chia hình ảnh thành các mảng nhỏ một chiều, mỗi mảng đại diện cho một vùng cục bộ của hình ảnh. Sau đó, mô hình áp dụng các phép tích chập (convolution) hoặc chiếu tuyến tính (linear projection) lên các vùng này để tạo ra các biểu diễn nhúng thị giác có ngữ cảnh (contextualized visual embeddings).
Đối với dữ liệu văn bản, mô hình chuyển đổi đoạn tiền tố liên quan đến từng vùng hình ảnh thành biểu diễn nhúng dưới dạng token. Sau đó, các khối mã hóa – giải mã (encoder-decoder) của Transformer tiếp nhận cả biểu diễn nhúng thị giác và token, từ đó học cách kết nối và hiểu mối quan hệ giữa chúng.
2.1. Kiến trúc SimVLM
SimVLM là một kiến trúc nổi bật ứng dụng phương pháp học PrefixLM. Mô hình này có kiến trúc Transformer đơn giản hơn so với các phiên bản trước đó nhưng đạt hiệu suất vượt trội trên nhiều bài kiểm tra đánh giá.
SimVLM sử dụng bộ mã hóa Transformer để học các cặp dữ liệu gồm hình ảnh và đoạn văn bản tiền tố, sau đó dùng bộ giải mã Transformer để tạo ra chuỗi văn bản đầu ra. Mô hình này cũng cho thấy khả năng tổng quát hóa tốt và có thể thực hiện dự đoán không cần ví dụ mẫu (zero-shot learning).
2.2. Kiến trúc VirTex
Tương tự, VirTex sử dụng mạng nơ-ron tích chập (Convolutional Neural Network – CNN) để trích xuất đặc trưng hình ảnh và một đầu xử lý văn bản (textual head) dựa trên Transformer để quản lý các đoạn tiền tố văn bản. Mô hình đầu-cuối (end-to-end) có thể được huấn luyện để dự đoán chính xác mô tả hình ảnh bằng cách cung cấp các cặp dữ liệu hình ảnh – văn bản cho đầu xử lý văn bản.
3. Frozen PrefixLM
Trong khi các kỹ thuật PrefixLM yêu cầu huấn luyện bộ mã hóa thị giác (visual encoder) và văn bản từ đầu, Frozen PrefixLM cho phép sử dụng các mạng nơ-ron đã được huấn luyện trước, và chỉ cập nhật các tham số của bộ mã hóa hình ảnh (image encoder).
Ví dụ, kiến trúc dưới đây minh họa cách Frozen PrefixLM hoạt động bằng cách sử dụng một mô hình ngôn ngữ và một bộ mã hóa thị giác đã được huấn luyện trước. Bộ mã hóa văn bản có thể thuộc về bất kỳ mô hình LLM nào, trong khi bộ mã hóa thị giác có thể là một mô hình nền tảng thị giác đã được huấn luyện trước.
Người dùng có thể tinh chỉnh (fine-tune) bộ mã hóa hình ảnh để điều chỉnh biểu diễn hình ảnh sao cho phù hợp với biểu diễn nhúng văn bản, giúp mô hình đưa ra dự đoán chính xác hơn.
Flamingo áp dụng một cách tiếp cận tiên tiến hơn. Mô hình này sử dụng một bộ mã hóa thị giác (vision encoder) tương tự CLIP, kết hợp với một mô hình ngôn ngữ lớn (Large Language Model – LLM) có tên Chinchilla.
Bằng cách giữ nguyên mô hình LLM, Flamingo cho phép huấn luyện bộ mã hóa thị giác (visual encoder) trên các hình ảnh được chèn xen kẽ giữa các đoạn văn bản. Bộ mã hóa thị giác xử lý hình ảnh thông qua một bộ chọn mẫu Perceiver (Perceiver Sampler). Kỹ thuật này giúp tăng tốc độ suy luận (inference), khiến Flamingo trở thành lựa chọn lý tưởng cho học máy ít dữ liệu (few-shot learning).
4. Kết hợp đa phương thức (Multimodal Fusing) và cơ chế chú ý chéo (Cross-Attention)
Phương pháp này tận dụng các bộ mã hóa của mô hình ngôn ngữ lớn (LLM) đã được huấn luyện trước để học biểu diễn thị giác bằng cách thêm các lớp chú ý chéo (cross-attention layers). Ví dụ, VisualGPT cho phép điều chỉnh nhanh trọng số của bộ mã hóa đã được huấn luyện trước để thực hiện các tác vụ thị giác.
Trong quá trình xử lý, mô hình trích xuất các đối tượng quan trọng từ hình ảnh đầu vào và đưa chúng vào bộ mã hóa thị giác. Các biểu diễn thị giác thu được sau đó được chuyển vào bộ giải mã và khởi tạo trọng số theo mô hình ngôn ngữ lớn (LLM) đã huấn luyện trước. Bộ giải mã có nhiệm vụ cân bằng thông tin hình ảnh và văn bản thông qua đơn vị kích hoạt tự phục hồi (Self-Resurrecting Activation Unit – SRAU).
Phương pháp SRAU giúp khắc phục vấn đề đạo hàm triệt tiêu (vanishing gradients), một hiện tượng phổ biến trong học sâu (deep learning) khi trọng số của mô hình không thể cập nhật do gradient quá nhỏ. Nhờ đó, VisualGPT hoạt động hiệu quả hơn so với nhiều mô hình nền tảng như Transformer thông thường, Attention-on-Attention (AoA) Transformer và X-Transformer.
5. Mô hình hóa ngôn ngữ bị che (Masked-language Modeling – MLM) và so khớp hình ảnh – văn bản (Image-Text Matching – ITM)
Masked-language Modeling (MLM) được sử dụng trong các mô hình ngôn ngữ như BERT bằng cách ẩn đi một phần của chuỗi văn bản và huấn luyện mô hình để dự đoán nội dung bị thiếu. Image-Text Matching (ITM) là kỹ thuật giúp mô hình xác định liệu câu Y có phù hợp với hình ảnh X hay không.
Các phương pháp MLM và ITM có thể được mở rộng để áp dụng cho các tác vụ thị giác. Ví dụ, kiến trúc VisualBERT dưới đây được huấn luyện trên bộ dữ liệu COCO. Phương pháp MLM được cải tiến bằng cách bổ sung một chuỗi hình ảnh nhỏ và một đoạn mô tả đã bị che một phần. Phương pháp ITM sẽ làm nhiệm vụ xác định xem mô tả có khớp với hình ảnh hay không.
6. Mô hình không cần huấn luyện (No Training)
Các mô hình ngôn ngữ thị giác quy mô lớn có thể được sử dụng trực tiếp mà không cần tinh chỉnh (fine-tuning). Ví dụ, MAGIC và ASIF là các mô hình không cần huấn luyện, được thiết kế để dự đoán mô tả văn bản phù hợp nhất với hình ảnh đầu vào.
- MAGIC sử dụng một điểm số chuyên biệt dựa trên biểu diễn nhúng hình ảnh từ CLIP để hướng dẫn đầu ra của mô hình ngôn ngữ. Dựa vào điểm số này, một mô hình ngôn ngữ lớn (LLM) sẽ tạo ra biểu diễn nhúng văn bản (textual embeddings) phù hợp với ngữ nghĩa hình ảnh (image semantics), giúp thực hiện các tác vụ đa phương thức theo cơ chế dự đoán kết quả mà không cần ví dụ mẫu (zero-shot).
- ASIF hoạt động dựa trên nguyên lý rằng các hình ảnh tương tự sẽ có mô tả tương tự. Mô hình tính toán độ tương đồng giữa hình ảnh truy vấn của tập dữ liệu huấn luyện (training datasets) và các hình ảnh ứng viên (candidate images). Tiếp theo, mô hình này so sánh các biểu diễn nhúng của hình ảnh truy vấn với biểu diễn nhúng văn bản của các hình ảnh ứng viên tương ứng. Cuối cùng là dự đoán mô tả văn bản có biểu diễn nhúng gần nhất với hình ảnh truy vấn, giúp đạt hiệu suất dự đoán kết quả mà không cần ví dụ mẫu (zero-shot) tương đương với các mô hình như CLIP và LiT.
7. Chắt lọc tri thức (Knowledge Distillation)
Kỹ thuật này cho phép chuyển giao kiến thức từ một mô hình giáo viên (teacher model) lớn, đã được huấn luyện kỹ lưỡng, sang một mô hình học sinh (student model) nhẹ hơn với ít tham số hơn. Phương pháp này giúp các nhà nghiên cứu huấn luyện mô hình ngôn ngữ thị giác (VLM) từ các mô hình lớn hơn đã được huấn luyện trước.
7.1. Kiến trúc ViLD
Ví dụ, ViLD là một trong những mô hình VLMs phổ biến được phát triển bằng phương pháp chắt lọc tri thức. Mô hình này sử dụng một mô hình phân loại hình ảnh từ vựng mở (open-vocabulary image classification model) đã được huấn luyện trước làm mô hình giáo viên để huấn luyện một bộ phát hiện hai giai đoạn (two-stage detector), đóng vai trò là mô hình học sinh.
ViLD ánh xạ các biểu diễn nhúng văn bản (textual embeddings) từ bộ mã hóa văn bản (textual encoder) với các biểu diễn nhúng hình ảnh (image embeddings). Quá trình chắt lọc tri thức chuyển giao thông tin từ bộ mã hóa hình ảnh (image encoder) sang mô hình xương sống (backbone model) để tự động tạo ra các biểu diễn vùng (regional embeddings). Trong quá trình suy luận (inference), chỉ mô hình xương sống tạo ra các biểu diễn vùng và đối chiếu chúng với các biểu diễn nhúng văn bản chưa từng gặp trước đó.
Mục tiêu của mô hình này là xác định chính xác vị trí của các đối tượng trong hình ảnh bằng cách tạo ra hộp giới hạn (bounding boxes) dựa trên mô tả văn bản.
8. Ứng dụng VLM trong các giải pháp của VinBigdata
8.1. Xử lý tài liệu thông minh (Smart OCR)
- Ứng dụng VLM để kiểm tra chất lượng đầu vào, nhận dạng và phân loại tài liệu, tự động lọc thông tin quan trọng của tài liệu. VLM cũng giúp giải pháp Smart OCR của VinBigdata dự đoán một số nội dung không xuất hiện trên tài liệu dựa trên ngữ cảnh và các thông tin có sẵn.
- Phối hợp với Prudential để đưa công nghệ OCR thế hệ mới được tích hợp Gen AI nhằm tự động hóa quy trình giải quyết các yêu cầu chi trả quyền lợi bảo hiểm cấp thiết như chăm sóc sức khỏe ngoại trú, hỗ trợ viện phí, phẫu thuật. Trong tháng đầu tiên triển khai tại Prudential, hơn 50% yêu cầu bồi thường được xử lý nhanh chóng. 243 yêu cầu được phê duyệt trong 3 phút, 1.636 yêu cầu nhận kết quả trong 30 phút.
8.2. Phân tích hành vi con người
- VLM được tích hợp với hệ thống giám sát thông minh bằng Camera AI, giúp nhận diện được các hành vi bất thường và phức tạp hơn so với AI truyền thống. Qua đó góp phần đảm bảo an ninh cho các khu vực được giám sát, hạn chế nguy cơ mất an toàn trật tự xã hội.
- VLM cũng được tích hợp vào các hệ thống DMS (Driver Monitoring System) để giám sát hành vi của tài xế và hành khách trên xe, giúp giảm thiểu tai nạn giao thông cũng như hạn chế rủi ro trong quá trình di chuyển.
8.3. Tìm kiếm thông minh dựa trên ngữ nghĩa
- Không cần nhớ chính xác tên file hay gõ từ khóa cứng nhắc, hệ thống có thể tìm kiếm tài liệu, hình ảnh, video chỉ dựa trên mô tả của người dùng.
- Tìm kiếm theo ngữ nghĩa, không yêu cầu từ khóa chính xác, có thể hiểu cả cách diễn đạt tự nhiên của con người.
9. Kết luận
Sự phát triển của mô hình ngôn ngữ thị giác (VLM) đang đưa AI đến gần hơn với khả năng hiểu và suy luận như con người. Không còn giới hạn trong việc chỉ đọc văn bản hay nhận diện hình ảnh, VLM giúp AI tích hợp thông tin đa phương thức, mở ra nhiều ứng dụng thực tế từ xử lý tài liệu thông minh, giám sát an ninh, đến phân tích dữ liệu phức tạp.
Bên cạnh những mô hình tiên phong như CLIP, Flamingo, VisualBERT, VinBigdata cũng đang phát triển mô hình VLM hướng đến xử lý tài liệu thông minh, giám sát hành vi và tìm kiếm thông tin nâng cao. Những công nghệ này hứa hẹn sẽ giúp các giải pháp của VinBigdata tự động hóa quy trình, phân tích dữ liệu nhanh và chính xác hơn, mang lại hiệu quả thực tiễn cho nhiều lĩnh vực.
Nguồn: Encord