VLM: Các mô hình mã nguồn mở nổi bật

Với sự phát triển nhanh chóng của AI, các Mô hình Ngôn ngữ Thị giác (VLM) mã nguồn mở không chỉ thu hẹp khoảng cách với các mô hình thương mại, mà còn mang lại lợi thế vượt trội về tính minh bạch, khả năng mở rộng và linh hoạt trong tùy chỉnh. Đặc biệt, các mã nguồn mở tạo điều kiện cho các nhà phát triển trẻ dễ dàng tiếp cận công nghệ AI tiên tiến, trực tiếp thử nghiệm, điều chỉnh và phát triển mô hình theo nhu cầu thực tế. 

Vậy đâu là những mô hình VLM mã nguồn mở nổi bật nhất hiện nay? Những công nghệ nào đang đứng sau hỗ trợ phát triển? Trong bài viết này, chúng ta sẽ cùng phân tích ưu, nhược điểm và ứng dụng thực tiễn của những mô hình VLM mã nguồn mở hàng đầu thế giới. 

1. Llama 3.2 Vision

Llama 3.2 Vision là một mô hình ngôn ngữ đa phương thức (multimodal LLM) do Meta phát triển, có khả năng xử lý đồng thời cả văn bản và hình ảnh. Mô hình này có hai phiên bản với 11 tỷ và 90 tỷ tham số, mang đến hiệu suất vượt trội so với nhiều mô hình mã nguồn mở và thương mại khác trong các tác vụ kết hợp giữa hình ảnh và văn bản.

Để hỗ trợ đầu vào hình ảnh, Meta đã tích hợp sẵn bộ mã hóa hình ảnh (pre-trained image encoder) vào mô hình ngôn ngữ, đồng thời sử dụng bộ điều hợp (adapters) để kết nối dữ liệu hình ảnh với các lớp xử lý văn bản. Nhờ đó, Llama 3.2 Vision có thể xử lý đồng thời cả văn bản và hình ảnh một cách hiệu quả.

Mô hình Llama 3.2 Vision

Đặc điểm nổi bật:

  • Khả năng đa phương thức (Multimodal capabilities): Llama 3.2 Vision có thể thực hiện các tác vụ kết hợp văn bản và hình ảnh, bao gồm tạo chú thích (generating caption), trả lời câu hỏi dựa trên hình ảnh (answering image-based question) và suy luận thị giác phức tạp (complex visual reasoning).
  • Hiệu suất vượt trội: Cả hai phiên bản 11 tỷ và 90 tỷ đều có kết quả tốt hơn các mô hình thương mại như Claude 3 Haiku, đặc biệt trong các tác vụ phân tích biểu đồ và sơ đồ (chart and diagram understanding).
  • Khả năng tùy chỉnh: Người dùng có thể tinh chỉnh (fine-tune) Llama 3.2 Vision theo nhu cầu riêng bằng công cụ Torchtune.

Điểm cần lưu ý:

  • Lý luận toán học: Theo đánh giá từ Meta, Llama 3.2 Vision vẫn còn hạn chế trong các tác vụ đòi hỏi khả năng tính toán cao, đặc biệt là phiên bản 11 tỷ.
  • Hỗ trợ ngôn ngữ: Mặc dù hỗ trợ nhiều ngôn ngữ như Đức, Pháp và Ý trong các tác vụ chỉ liên quan đến văn bản, nhưng chỉ hỗ trợ tiếng Anh khi xử lý nội dung kết hợp hình ảnh và văn bản.

2. NVLM 1.0

NVLM do NVIDIA phát triển là một trong những cách tiếp cận tiên tiến nhất về VLM. Mô hình này đạt hiệu suất vượt trội trong các tác vụ yêu cầu sự hiểu biết sâu về cả văn bản và hình ảnh. Phiên bản đầu tiên được công bố rộng rãi – NVLM 1.0, có thể cạnh tranh trực tiếp với các mô hình thương mại hàng đầu như GPT-4o và các mô hình mã nguồn mở như Llama 3-V 405B.

Đặc điểm nổi bật:

  • Kiến trúc đa dạng: NVLM 1.0 có ba kiến trúc riêng biệt, được tối ưu hóa cho các trường hợp sử dụng khác nhau:
    • NVLM-D: Mô hình chỉ giải mã (decoder-only), mang lại khả năng suy luận đa phương thức thống nhất (unified multimodal reasoning) và đặc biệt hiệu quả với các tác vụ liên quan đến nhận dạng ký tự quang học (OCR-related tasks).
    • NVLM-X: Kiến trúc dựa trên tương tác chéo (cross-attention-based architecture), giúp tối ưu hóa hiệu suất tính toán, đặc biệt là khi xử lý hình ảnh có độ phân giải cao.
    • NVLM-H: Kiến trúc lai (hybrid architecture) kết hợp điểm mạnh của cả hai phương pháp trên, mang lại hiệu suất vượt trội trong suy luận đa phương thức và xử lý hình ảnh.
  • Khả năng suy luận hình ảnh mạnh mẽ: NVLM 1.0 vượt trội hơn nhiều mô hình thương mại và mã nguồn mở trong các tác vụ như OCR (nhận dạng ký tự quang học), suy luận đa phương thức (multimodal reasoning) và xử lý hình ảnh có độ phân giải cao.

Theo minh họa do NVIDIA cung cấp, NVLM 1.0 có khả năng xác định rủi ro tiềm ẩn và đề xuất hành động dựa trên thông tin thị giác, giúp nâng cao khả năng phân tích hình ảnh trong các tình huống thực tế.

Mô hình NVLM 1.0
  • Hiệu suất vượt trội trong các tác vụ chỉ sử dụng văn bản: Các nhà nghiên cứu tại NVIDIA nhận thấy rằng, mặc dù các mô hình LLM đa phương thức mã nguồn mở (open-source multimodal LLMs) thường đạt kết quả cao trong các bài toán kết hợp giữa hình ảnh và văn bản, nhưng hiệu suất của chúng có xu hướng giảm sút khi xử lý các tác vụ chỉ sử dụng văn bản (text-only tasks). Để khắc phục điều này, NVIDIA đã phát triển một phương pháp đa phương thức cấp sản phẩm (production-grade multimodality) cho dòng NVLM. Nhờ đó, NVLM không chỉ xuất sắc trong các tác vụ thị giác-ngôn ngữ (vision-language tasks) mà còn cải thiện hiệu suất trong các tác vụ chỉ sử dụng văn bản. 

Điểm cần lưu ý:

  • Chỉ sử dụng cho nghiên cứu: NVLM 1.0 được NVIDIA cung cấp chỉ dành cho mục đích nghiên cứu và thử nghiệm cá nhân, không được cấp phép để triển khai thương mại.
  • Hạn chế phiên bản: Hiện tại, NVIDIA chỉ công bố trọng số và mã nguồn của phiên bản 72 tỷ tham số NVLM-1.0-D-72B (kiến trúc chỉ giải mã – decoder-only). Các phiên bản kiến trúc khác hoặc mô hình với quy mô lớn hơn có thể được phát hành trong tương lai.

3. Molmo

Molmo là một mô hình VLM mã nguồn mở do Viện Trí tuệ Nhân tạo Allen (Allen Institute for AI) phát triển. Với các phiên bản 1 tỷ, 7 tỷ và 72 tỷ tham số, Molmo đạt hiệu suất dẫn đầu trong nhóm các mô hình cùng loại và có thể sánh ngang với các mô hình thương mại hàng đầu như GPT-4V, Gemini 1.5 Pro và Claude 3.5 Sonnet.

Yếu tố quan trọng giúp Molmo đạt hiệu suất vượt trội chính là bộ dữ liệu huấn luyện đặc biệt PixMo, gồm 1 triệu cặp hình ảnh – văn bản, được chia thành hai nhóm chính:

  • Dữ liệu chú thích chi tiết (dense captioning data): Dùng cho tiền huấn luyện đa phương thức (multimodal pre-training).
  • Dữ liệu tinh chỉnh có giám sát (supervised fine-tuning data): Giúp mô hình xử lý nhiều tương tác phức tạp với người dùng, bao gồm trả lời câu hỏi (question answering), đọc tài liệu (document reading), và xác định vị trí vật thể trong hình ảnh (pointing to objects).

Một điểm đặc biệt trong quá trình thu thập dữ liệu của Molmo là cách tiếp cận sáng tạo. Thay vì yêu cầu người chú thích viết mô tả hình ảnh, họ được yêu cầu mô tả bằng lời nói trong khoảng 60 đến 90 giây. Điều này giúp tạo ra các mô tả hình ảnh chi tiết hơn, bao gồm vị trí không gian và mối quan hệ giữa các đối tượng, mà không tốn nhiều thời gian như phương pháp viết truyền thống. Nhờ đó, nhóm nghiên cứu đã thu thập được 712.000 mô tả âm thanh chất lượng cao từ 50 chủ đề lớn, giúp nâng cao khả năng hiểu hình ảnh của Molmo.

Mô hình Molmo

Đặc điểm nổi bật:

  • Hiệu suất hàng đầu: Phiên bản Molmo 72B được cho là vượt trội hơn các mô hình thương mại như Gemini 1.5 Pro và Claude 3.5 Sonnet theo nhiều bài đánh giá học thuật. Ngay cả các phiên bản nhỏ hơn như 7 tỷ và 1 tỷ cũng có thể cạnh tranh với GPT-4V trong nhiều tác vụ.
  • Khả năng chỉ điểm (Pointing capabilities): Molmo có thể “chỉ ra” các yếu tố hình ảnh cụ thể, giúp giải thích trực quan hơn. Các nhà phát triển Molmo tin rằng trong tương lai, khả năng chỉ điểm sẽ trở thành một kênh giao tiếp quan trọng giữa các mô hình VLM và các hệ thống AI tự động (AI agents). 
  • Kiến trúc mở (Open architecture): Các nhà phát triển cam kết công khai tất cả tài nguyên liên quan đến quá trình xây dựng Molmo, bao gồm bộ dữ liệu PixMo, mã nguồn huấn luyện, các bộ đánh giá, và các checkpoint trung gian. Điều này giúp thiết lập một tiêu chuẩn mới cho việc xây dựng các hệ thống đa phương thức hiệu suất cao từ số không, đồng thời tăng cường tính tái lập (reproducibility) trong nghiên cứu.

Điểm cần lưu ý:

  • Hình ảnh trong suốt (Transparent images): Molmo có thể gặp khó khăn khi xử lý hình ảnh trong suốt, do đó cần thêm nền trắng hoặc tối trước khi đưa vào mô hình.
  • Lỗi phát sóng (Broadcast errors): Cần đảm bảo hình ảnh đầu vào có định dạng RGB để tránh lỗi khi xử lý.

4. Qwen2-VL

Qwen2-VL là một phiên bản trong hệ mô hình VLM Qwen của Alibaba Cloud. Không chỉ dừng lại ở việc nhận diện cơ bản các đối tượng như cây cối, địa danh, mô hình này có thể hiểu mối quan hệ phức tạp giữa nhiều đối tượng trong một khung cảnh.

Ngoài ra, Qwen2-VL còn có khả năng nhận diện chữ viết tay và hỗ trợ nhiều ngôn ngữ trong hình ảnh. Bên cạnh hình ảnh tĩnh, Qwen2-VL còn mở rộng khả năng sang nội dung video, hỗ trợ tóm tắt video, trả lời câu hỏi dựa trên nội dung video và tương tác theo thời gian thực về video.

 

Mô hình Qwen2-VL

Đặc điểm nổi bật:

  • Hiệu suất hàng đầu: Qwen2-VL đạt kết quả vượt trội trên nhiều bài đánh giá về hiểu biết thị giác, bao gồm MathVista, DocVQA, RealWorldQA và MTVQA. Đặc biệt, phiên bản 72 tỷ của mô hình vượt qua GPT-4o và Claude 3.5 Sonnet trên hầu hết các bài kiểm tra về hình ảnh.
  • Hiểu video chuyên sâu: Với khả năng phân tích video trực tuyến, Qwen2-VL có thể xử lý các video dài trên 20 phút và trả lời các câu hỏi liên quan đến nội dung video.
  • Kiến trúc linh hoạt: Qwen2-VL có nhiều kích thước mô hình khác nhau, bao gồm 2 tỷ, 7 tỷ và 72 tỷ tham số, cùng các phiên bản lượng tử hóa (quantization) như AWQ và GPTQ. Điều này giúp tối ưu hóa việc triển khai theo từng trường hợp sử dụng cụ thể. Một số phiên bản có thể chạy trên các thiết bị di động hoặc robot, hỗ trợ vận hành tự động dựa trên môi trường thị giác và thực hiện tác vụ theo hướng dẫn bằng văn bản.
  • Hỗ trợ đa ngôn ngữ: Qwen2-VL có khả năng nhận diện và hiểu văn bản trong nhiều ngôn ngữ ngay trong hình ảnh, bao gồm Tiếng Anh, Trung Quốc, hầu hết các ngôn ngữ Châu Âu, Nhật Bản, Hàn Quốc, Ả Rập và Tiếng Việt. 

Điểm cần lưu ý:

  • Hiểu và thực thi hướng dẫn phức tạp: Mô hình vẫn cần được cải thiện trong việc hiểu và thực hiện các hướng dẫn nhiều bước
  • Độ chính xác khi đếm vật thể: Qwen2-VL có độ chính xác chưa cao trong việc đếm số lượng vật thể, đặc biệt khi xử lý các cảnh phức tạp với nhiều đối tượng chồng chéo.
  • Khả năng suy luận không gian: Mô hình gặp khó khăn khi suy luận về vị trí và mối quan hệ không gian giữa các vật thể, đặc biệt là trong không gian 3D.

5. Pixtral

Pixtral là mô hình mã nguồn mở với 12 tỷ tham số, được phát triển bởi Mistral, đánh dấu bước tiến đầu tiên của công ty vào lĩnh vực AI đa phương thức (multimodal AI). Mô hình này có khả năng xử lý cả hình ảnh và văn bản, được phát hành với trọng số mở (open weights) theo giấy phép Apache 2.0.

Với cơ chế huấn luyện tinh chỉnh theo hướng dẫn (instruction-tuned model), Pixtral được huấn luyện trên một bộ dữ liệu quy mô lớn gồm các tài liệu chứa cả hình ảnh và văn bản đan xen (interleaved image-text dataset). Nhờ đó, mô hình có thể xử lý hội thoại nhiều lượt (multi-turn conversations) và phân tích nhiều hình ảnh trong một tương tác (multi-image conversations)

Không giống như nhiều mô hình mã nguồn mở trước đây, Pixtral không chỉ duy trì hiệu suất mạnh mẽ trong các bài kiểm tra ngôn ngữ, mà còn vượt trội trong các tác vụ xử lý đa phương thức, mang lại sự cân bằng giữa khả năng hiểu văn bản và phân tích hình ảnh.

Đặc điểm nổi bật:

  • Khả năng tuân thủ hướng dẫn: Pixtral 12 tỷ tham số có khả năng thực hiện chính xác các hướng dẫn vượt trội so với nhiều mô hình mã nguồn mở khác như Qwen2-VL 7 tỷ tham số, LLaVa-OneVision 7 tỷ tham số và Phi-3.5 Vision. Để đánh giá hiệu suất trong bối cảnh đa phương thức, Mistral đã phát triển các bộ đánh giá chuyên dụng MM-IF-Eval và MM-MT-Bench. Pixtral không chỉ thể hiện kết quả ấn tượng trong các bài kiểm tra này mà các bộ đánh giá này cũng dự kiến sẽ mở mã nguồn để cộng đồng có thể sử dụng trong thời gian tới.
Mô hình Pixtral
  • Xử lý nhiều hình ảnh cùng lúc: Pixtral có thể tiếp nhận và phân tích nhiều hình ảnh trong một lần nhập, đồng thời xử lý chúng ở độ phân giải gốc (native resolution). Mô hình hỗ trợ cửa sổ ngữ cảnh (context window) lên đến 128.000 token, cho phép xử lý hình ảnh có kích thước và tỷ lệ khung hình khác nhau một cách linh hoạt.

Điểm cần lưu ý:

  • Thiếu cơ chế kiểm duyệt: Hiện tại, Pixtral không có cơ chế kiểm duyệt tích hợp, điều này có thể khiến mô hình không phù hợp với các ứng dụng yêu cầu kiểm soát chặt chẽ đầu ra.

6. Kết luận

Các mô hình VLM mã nguồn mở đang mở ra một kỷ nguyên mới, nơi AI không chỉ hiểu ngôn ngữ và hình ảnh một cách sâu sắc hơn mà còn mang đến những đột phá trong nghiên cứu và ứng dụng thực tế. Mỗi mô hình đều có lợi thế riêng, từ khả năng phân tích ngữ cảnh phức tạp, nhận diện nội dung trong video, đến hỗ trợ đa ngôn ngữ, giúp mở rộng tiềm năng của AI trong nhiều lĩnh vực.

Đặc biệt, sự phát triển của mã nguồn mở đang thay đổi cách AI được tiếp cận và phát triển. Không còn bị giới hạn trong các tập đoàn công nghệ lớn, AI giờ đây trở thành một nền tảng mở, liên tục được cải tiến nhờ sự đóng góp từ cộng đồng, Chính điều này đã thúc đẩy đổi mới sáng tạo, giúp AI ngày càng linh hoạt, dễ ứng dụng hơn và tạo ra nhiều giá trị thực tiễn. 

Nguồn: BentoML

Bình luận

Địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu

Bài viết liên quan

    Cảm ơn bạn đã quan tâm và ủng hộ.

    File hiện tại không thể tải xuống
    Vui lòng liên hệ hỗ trợ.

    VinOCR eKYC
    Chọn ảnh từ máy của bạn

    Chọn ảnh demo dưới đây hoặc tải ảnh lên từ máy của bạn

    Tải lên ảnh CMND/CCCD/Hộ chiếu,...

    your image
    Chọn ảnh khác
    Tiến hành xử lý
    Thông tin đã được xử lý
    Mức độ tin cậy: 0%
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    Xác thực thông tin thẻ CMND/CCCD

    Vui lòng sử dụng giấy tờ thật. Hãy đảm bảo ảnh chụp không bị mờ hoặc bóng, thông tin hiển thị rõ ràng, dễ đọc.

    your image
    Chọn ảnh khác

    Ảnh mặt trước CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh mặt sau CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh chân dung

    This site is registered on wpml.org as a development site.