5 mô hình AI tạo sinh phổ biến

Có lẽ bạn không còn xa lạ gì với ChatGPT hay Bard của Google, đây là các ứng dụng được phát triển dựa trên công nghệ AI tạo sinh với dữ liệu văn bản. Ngoài ra, hiện nay, một số mô hình AI đã có khả năng tạo ra các sản phẩm dưới dạng hình ảnh, video hay code. Vậy đằng sau những ứng dụng này là mô hình công nghệ nào?

Bài viết này sẽ “bóc tách” 5 mô hình AI tạo sinh phổ biến đi từ dữ liệu hình ảnh đến dữ liệu ngôn ngữ. Với mỗi mô hình, bài viết sẽ chỉ ra cơ chế hoạt động, quá trình đào tạo, các ứng dụng phổ biến và ví dụ điển hình.

Generative Adversarial Networks (GANs)

Tương tự như bất kỳ mô hình AI tạo sinh nào, mục tiêu của GAN là tạo ra dữ liệu mới dựa trên tập dữ liệu được cung cấp. Để hoàn thành tác vụ này, nó sử dụng hai mạng thần kinh: generator (bộ tạo) và discriminator (bộ phân biệt).

Ví dụ: để tạo hình ảnh mèo bằng GAN, generator lấy một vector ngẫu nhiên làm đầu vào và tạo ra một hình ảnh giả về con mèo. Sau đó, discriminator sẽ lấy cả hai – hình ảnh thật của mèo từ tập dữ liệu và hình ảnh giả do generator tạo ra – và cố gắng phân loại chúng là thật hay giả. Dựa trên sự phân loại này, mô hình học cách phân biệt hình ảnh tốt hơn ở những lần tiếp theo. Mặt khác, generator cũng  được đào tạo để cho ra hình ảnh chân thực hơn, có thể đánh lừa discriminator sau đó.

Cơ chế hoạt động của GAN. Nguồn: Simform

Quá trình đào tạo GAN

Quá trình đào tạo GAN có thể được chia thành các bước sau:

  1. Initialization: Generator và Discriminator được khởi tạo với các trọng số ngẫu nhiên.
  2. Training Loop: Generator tạo ra một loạt dữ liệu giả, trong khi discriminator đưa ra điểm xác suất từ 0 đến 1, cho biết dữ liệu mà nó nhận được là thật hay giả.
  3. Backpropagation: Tín hiệu lỗi từ discriminator được truyền ngược qua mạng để cập nhật trọng số của nó. Sau đó các tín hiệu lỗi của discriminator cũng được lan truyền ngược lại tới generator để cập nhật lại bộ trọng số của mô hình generator.
  4. Sampling: Sau khi mô hình được huấn luyện, generator có thể tạo dữ liệu mới bằng cách lấy mẫu từ phân phối đã học.

GAN được sử dụng cho nhiều ứng dụng khác nhau, chẳng hạn như tạo hình ảnh, video và giọng nói chân thực. Một lợi thế của GAN là khả năng tạo ra các mẫu đa dạng và chất lượng cao, vì chúng có thể học các phân phối phức tạp và đa phương thức.

Tuy nhiên, GAN có thể gặp khó khăn khi đào tạo, và xảy ra tình trạng generator tạo ra các mẫu hạn chế và lặp đi lặp lại. Nhiều cải tiến khác nhau đã được đề xuất để giải quyết những vấn đề này, chẳng hạn như Wasserstein GAN và StyleGAN.

Các ứng dụng tiềm năng của GAN

  • Tạo và xử lý hình ảnh và video, bao gồm các hình ảnh chân thực và deep fake
  • Thay đổi phong cách của ảnh, chẳng hạn như chuyển đổi từ cảnh ban ngày sang cảnh ban đêm
  • Tăng cường dữ liệu và tổng hợp dữ liệu, có thể giúp cải thiện hiệu suất của các mô hình học tập có giám sát
  • Tổng hợp văn bản thành hình ảnh và chú thích hình ảnh
  • Tạo và thiết kế mô hình 3D
  • Chuyển đổi giọng nói và tổng hợp âm thanh
  • Phát triển và thiết kế trò chơi, chẳng hạn như sáng tạo các nhân vật mới
  • Ứng dụng trong lĩnh vực sáng tạo, chẳng hạn như sáng tác nghệ thuật, âm nhạc và văn học
  • Bảo mật và quyền riêng tư, chẳng hạn như tạo dữ liệu giả để bảo vệ thông tin nhạy cảm và các mô hình phát hiện, ngăn chặn deep fake
  • Nghiên cứu và mô phỏng khoa học, chẳng hạn như mô phỏng các hệ thống phức tạp và dự đoán kết quả trong vật lý và các ngành khoa học khác

Lưu ý: Hiệu quả của GAN trong các ứng dụng này có thể phụ thuộc vào nhiều yếu tố khác nhau, chẳng hạn như chất lượng dữ liệu đào tạo, độ phức tạp của phân phối cơ bản cũng như kiến trúc cụ thể và siêu tham số của mô hình GAN.

Một ví dụ thực tế của GAN là CycleGAN – mô hình được sử dụng cho bài toán image-to-image translation (học ánh xạ giữa ảnh đầu vào và ảnh đầu ra). CycleGAN có thể chuyển đổi hình ảnh từ miền này sang miền khác mà không cần dữ liệu đào tạo được ghép nối. Ví dụ: nó có thể chuyển đổi hình ảnh ban ngày thành hình ảnh ban đêm hoặc hình ảnh con ngựa thành hình ảnh ngựa vằn.

CycleGAN hoạt động bằng cách sử dụng hai mạng generator và discriminator hoạt động cùng nhau trong một quy trình tuần hoàn để tạo ra hình ảnh mới theo cách duy trì định dạng của hình ảnh gốc. Nó là một công cụ mạnh mẽ có thể được sử dụng để tạo nội dung trực quan mới và biến đổi các hình ảnh hiện có theo những cách sáng tạo và bất ngờ.

Variational Autoencoders (VAEs)

Điểm nổi bật của VAE so với các mô hình khác là giúp bạn khám phá các biến thể của dữ liệu theo một hướng cụ thể.

Với ví dụ về hình ảnh con mèo mà ta đã sử dụng trước đó, VAE lấy hình ảnh làm đầu vào và xử lý nó thông qua hai mạng thần kinh – một bộ mã hóa (encoder) và một bộ giải mã (decoder). Bộ mã hóa nén hình ảnh thành dạng biểu diễn với số chiều (dimension) nhỏ hơn số chiều của dữ liệu đầu vào. Không gian của các vector biểu diễn mới này gọi là latent space. Sau đó bộ giải mã sử dụng các vector biểu diễn này để tái tạo hình ảnh mới tương tự như ảnh gốc.

Bộ mã hóa nén hình ảnh thành dạng biểu diễn với số chiều (dimension) nhỏ hơn số chiều của dữ liệu đầu vào. Không gian của các vector biểu diễn mới này gọi là latent space. Sau đó bộ giải mã sử dụng các vector biểu diễn này để tái tạo hình ảnh mới tương tự như ảnh gốc.

Quy trình đào tạo của VAE

Quá trình đào tạo của VAE có thể được chia thành các bước sau:

  1. Mã hóa: Dữ liệu đầu vào được đưa vào mạng mã hóa, mạng này sẽ nén dữ liệu vào latent space. Latent space tuân theo giả định phân phối Gaussian.
  2. Lấy mẫu: Từ phân bố Gaussian đã học, một điểm được lấy mẫu ngẫu nhiên trong latent space.
  3. Giải mã: Mạng giải mã lấy điểm được lấy mẫu và giải mã thành điểm dữ liệu mới. Bộ giải mã được huấn luyện để xây dựng lại dữ liệu đầu vào ban đầu từ biểu diễn latent space.
  4. Tính toán loss: Hàm loss của VAE bao gồm reconstruction loss và KL-divergence loss. Reconstruction loss đo lường mức độ mà bộ giải mã có thể tái tạo lại dữ liệu đầu vào ban đầu. Ngược lại, KL-divergence loss đo lường sự khác biệt giữa phân bố đã học của latent space và phân bố thực tế.
  5. Lan truyền ngược (Backpropagation): Tín hiệu lỗi từ hàm loss được truyền ngược qua mạng để cập nhật trọng số của cả bộ mã hóa và bộ giải mã.

Sau khi VAE được huấn luyện, nó có thể tạo ra dữ liệu mới bằng cách lấy mẫu từ phân phối đã học của latent space. VAE cũng có thể được sử dụng cho các ứng dụng khác, chẳng hạn như nén dữ liệu, khử nhiễu và trích xuất đặc trưng.

Dưới đây là ví dụ về khử nhiễu hình ảnh bằng VAE:

Nguồn: Simform

Một ưu điểm của VAE là khả năng học cách biểu diễn dữ liệu có cấu trúc chặt chẽ hơn, khi bộ mã hóa nén dữ liệu vào không gian có chiều thấp. Tuy nhiên, VAE có thể tạo ra các mẫu mờ hoặc chất lượng thấp vì tính chất xác suất của mô hình có thể gây ra nhiễu. Nhiều cải tiến khác nhau đã được đề xuất để giải quyết những vấn đề này, chẳng hạn như sử dụng đào tạo đối nghịch và flow-based models.

Các ứng dụng tiềm năng của VAE:

  • Tạo và xử lý hình ảnh
  • Tạo và dự đoán video
  • Nén và khử nhiễu dữ liệu
  • Phát hiện bất thường và loại bỏ các giá trị ngoại lệ
  • Hệ thống khuyến nghị và cá nhân hóa
  • Trích xuất đặc trưng 
  • Tạo mô hình và môi trường 3D thực tế
  • Xử lý ngôn ngữ tự nhiên, bao gồm tạo văn bản và dịch máy
  • Phân tích dữ liệu y sinh và nghiên cứu thuốc
  • Mô phỏng và dự đoán trong vật lý và các ngành khoa học khác

DeepDream của Google sử dụng phương pháp tiếp cận giống VAE để tạo ra hình ảnh giống với hình ảnh gốc. Nó sử dụng Convolutional Neural Networks (CNN) để tìm và nâng cao các mẫu trong hình ảnh.

Để tạo hình ảnh DeepDream, thuật toán lấy hình ảnh đầu vào và chuyển nó qua nhiều lớp của mạng thần kinh được đào tạo trước. Ở mỗi lớp, thuật toán cố gắng nâng cao các đặc điểm hình ảnh nhất định bằng cách khuếch đại các mẫu mà mạng nhận ra. Quá trình này được lặp lại nhiều lần, với đầu ra của một lớp đóng vai trò là đầu vào của lớp tiếp theo cho đến khi hình ảnh trở nên trừu tượng và siêu thực.

Diffusion models

Diffusion models là một loại mô hình AI tạo sinh khác hiện đang được chú ý, với các ứng dụng như Stable Diffusion, Google’s Imagen, và Midjourney.

Còn được gọi là denoising diffusion probabilistic models (DDPM), chúng học cách tạo ra dữ liệu tổng hợp chất lượng cao bằng cách liên tục thêm nhiễu vào mẫu cơ sở rồi loại bỏ nhiễu. Việc này được thực hiện lặp đi lặp lại, làm tăng lượng nhiễu ở mỗi lần lặp. Sau đó, mô hình học cách loại bỏ nhiễu, áp dụng quy trình khử nhiễu dần dần để tái tạo lại dữ liệu gốc.

Nguồn: Simform

Sau khi đào tạo, mô hình có thể áp dụng quy trình khử nhiễu đã học cho đầu vào mới và tạo ra các mẫu mới. Theo thời gian, mô hình sẽ hiểu rõ hơn các mẫu và cấu trúc của dữ liệu đồng thời loại bỏ nhiễu bổ sung.

Diffusion models đặc biệt hiệu quả trong việc tạo ra hình ảnh chất lượng cao vì nó có thể hiểu được mối quan hệ phức tạp giữa các pixel trong hình ảnh.

Một đặc điểm đáng chú ý khác của các diffusion models là chúng có thể được huấn luyện bằng cách sử dụng hàm contrastive loss đơn giản và hiệu quả, do đó tương đối dễ huấn luyện so với các mô hình tạo sinh khác như GAN và VAE. Ngoài ra, diffusion models có thể thực hiện nhiều tác vụ tạo sinh khác nhau, bao gồm tổng hợp hình ảnh, dự đoán video và tạo văn bản.

DALL-E là một mạng thần kinh được phát triển bởi OpenAI, có thể tạo ra hình ảnh từ các mô tả văn bản dựa trên diffusion models. Mô hình này sử dụng quy trình diffusion để nhân bản từng pixel của hình ảnh, cho phép tạo ra các hình ảnh có độ chi tiết cao và phức tạp. Người dùng có thể nhập mô tả văn bản của hình ảnh mong muốn và DALL-E sẽ tạo ra hình ảnh phù hợp với mô tả.

Autoregressive Models

Autoregressive models tạo dữ liệu dạng chuỗi bằng việc sử dụng mô hình xác suất có điều kiện để dự đoán từng phần tử trong chuỗi dựa trên các phần tử phía trước nó. Những mô hình này thường được sử dụng cho các tác vụ xử lý ngôn ngữ tự nhiên (NLP), chẳng hạn như tạo văn bản và dịch thuật.

Nói một cách đơn giản, autoregressive models dự đoán giá trị tiếp theo trong chuỗi bằng cách xem xét các giá trị trước đó. Ví dụ: trong một chuỗi giá cổ phiếu theo thời gian, autoregressive models có thể dự đoán giá của ngày hôm sau dựa trên giá của vài ngày trước đó.

Các mô hình ngôn ngữ lớn (LLM) đang được chú ý hiện nay cũng sử dụng autoregressive models để tạo ra các phản hồi tự nhiên như con người. Chúng được đào tạo dựa trên số lượng lớn dữ liệu văn bản, chẳng hạn như các bài báo, sách và trang web, đồng thời được thiết kế để tạo ra văn bản mới có phong cách và nội dung tương tự với dữ liệu thực.

LLM đã trở nên rất phổ biến trong những năm gần đây, với các mô hình như dòng GPT (Generative Pre-trainer Transformer) của OpenAI và BERT của Google. Những mô hình này đạt được kết quả ấn tượng trong nhiều tác vụ ngôn ngữ, bao gồm mô hình hóa ngôn ngữ, dịch máy, trả lời câu hỏi và tóm tắt văn bản. Hơn nữa, khả năng tạo văn bản chất lượng cao của LLM cũng mở đường cho các ứng dụng trong lĩnh vực sáng tạo như xây dựng chatbot, viết thơ và thậm chí viết bài báo hoặc bài đăng trên mạng xã hội.

Transformer-based models

Transformer-based models đã được sử dụng làm nền tảng cho nhiều mô hình AI tạo sinh khác nhau, bao gồm các mô hình ngôn ngữ như GPT-3.

Transformer là một loại kiến trúc mạng thần kinh dựa trên cơ chế tự chú ý. Khi được cung cấp đầu vào, cơ chế này cho phép mô hình gán song song các trọng số cho các phần khác nhau của chuỗi đầu vào. Sau đó, mô hình xác định mối quan hệ giữa chúng và tạo đầu ra phù hợp với đầu vào cụ thể.

Transformer được sử dụng phổ biến cho các tác vụ NLP như dịch ngôn ngữ, tạo và trả lời câu hỏi. Tuy nhiên, nếu đứng tách biệt, đây có thể không được coi là mô hình tạo sinh trừ khi chúng được đào tạo đặc biệt để tạo nội dung mới.

Bình luận

Địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu

Bài viết liên quan

    Cảm ơn bạn đã quan tâm và ủng hộ.

    File hiện tại không thể tải xuống
    Vui lòng liên hệ hỗ trợ.

    VinOCR eKYC
    Chọn ảnh từ máy của bạn

    Chọn ảnh demo dưới đây hoặc tải ảnh lên từ máy của bạn

    Tải lên ảnh CMND/CCCD/Hộ chiếu,...

    your image
    Chọn ảnh khác
    Tiến hành xử lý
    Thông tin đã được xử lý
    Mức độ tin cậy: 0%
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    Xác thực thông tin thẻ CMND/CCCD

    Vui lòng sử dụng giấy tờ thật. Hãy đảm bảo ảnh chụp không bị mờ hoặc bóng, thông tin hiển thị rõ ràng, dễ đọc.

    your image
    Chọn ảnh khác

    Ảnh mặt trước CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh mặt sau CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh chân dung

    This site is registered on wpml.org as a development site.