5 xu hướng Gen AI trong năm 2024

Xu hướng AI tạo sinh trong 2024

Năm 2023 đánh dấu một bước ngoặt quan trọng trong sự phát triển của công nghệ khi AI tạo sinh trở nên phổ biến toàn cầu. Trong nửa đầu năm 2024, ta đã chứng kiến sự bùng nổ của thị trường AI tạo sinh, mở ra những xu hướng mới đầy hứa hẹn, có khả năng cách mạng hóa công nghệ và ứng dụng nó trong đời sống xã hội 

Những xu hướng mới nổi lên từ các tiến bộ trong mô hình AI đa thể thức (Multimodal AI) đến sự xuất hiện của các mô hình ngôn ngữ nhỏ (SLMs) không chỉ thay đổi toàn cảnh thị trường công nghệ mà còn định hình lại cách chúng ta tương tác, sáng tạo và nhận thức về tiềm năng của AI.

Bài viết này sẽ tổng tổng 5 xu hướng AI tạo sinh mới nhất trong năm 2024:

1. AI đa thể thức (Multimodal AI)

Trước sự phát triển chóng mặt của AI tạo sinh và nhu cầu sử dụng tăng cao, làn sóng đổi mới tiếp theo sẽ không chỉ tập trung vào việc nâng cao hiệu suất trong một lĩnh vực cụ thể mà còn vào việc phát triển các mô hình đa thể thức có thể xử lý nhiều loại dữ liệu đầu vào. Mặc dù các mô hình này không phải là mới trên thị trường, ví dụ như CLIP – mã hóa văn bản và hình ảnh tương ứng thành véc tơ hay Wave2Vec – biểu diễn một đoạn âm thanh dưới dạng véc tơ, nhưng chúng chỉ hoạt động theo một chiều và được “huấn luyện” để hoàn thành một tác vụ cụ thể.

AI đa thể thức đáp ứng nhiều tác vụ
AI đa thể thức đáp ứng nhiều tác vụ linh hoạt hơn

Thế hệ mô hình AI đa thể thức sắp tới, bao gồm các mô hình độc quyền (Proprietary model) như GPT-4V của OpenAI hoặc Gemini (Google), cũng như các mô hình mã nguồn mở (Open source model) như LLaVa, Adept hoặc Qwen-VL, cho khả năng chuyển đổi tự do giữa các tác vụ Xử lý ngôn ngữ tự nhiên (NLP) và Thị giác máy tính (CV). Ngoài ra, các ông lớn công nghệ cũng đã cho ra mắt thị trường các công cụ tạo video từ nhiều dạng đầu vào khác nhau như văn bản, hình ảnh hay thậm chí là lời nói. Cuối tháng 1/2024, Google đã công bố Lumiere, một mô hình tạo video từ nhiều đầu vào khác nhau, bao gồm văn bản thành video, hình ảnh thành video. Ngoài ra, người dùng cũng có thể kết hợp thêm các câu lệnh để “nắn” video đầu ra theo ý muốn. 

Nửa cuối 2024, AI đa thể thức được dự đoán​​ sẽ phát triển mạnh mẽ hơn, tạo ra sự thay đổi về khả năng ứng dụng của AI tạo sinh. Các mô hình này đang phát triển vượt xa các mô hình đơn tác vụ truyền thống bằng cách kết hợp các loại dữ liệu đa dạng như hình ảnh, ngôn ngữ và âm thanh để đưa ra kết quả chính xác hơn. Nhờ quá trình chuyển đổi sang mô hình đa thể thức, AI sẽ trở nên trực quan và thích ứng linh hoạt

2. Mô hình ngôn ngữ nhỏ (Small language model)

Nếu 2023 là năm của các mô hình ngôn ngữ lớn (LLM) thì 2024 sẽ chứng kiến ​​sức mạnh của các mô hình ngôn ngữ nhỏ (SLM). Các mô hình ngôn ngữ lớn đã tạo tiền đề để AI tạo sinh tạo nên một “cú nổ lớn” trong suốt gần 2 năm qua, nhưng chúng cũng tồn tại nhiều hạn chế. Các mô hình ngôn ngữ lớn được đào tạo trên các bộ dữ liệu khổng lồ như Common Crawl The Pile bao gồm hàng terabyte dữ liệu từ hàng tỷ trang web trên internet. Thực tế, chỉ những công ty lớn mới có đủ nguồn lực và hạ tầng để đào tạo và duy trì các mô hình khổng lồ với hàng trăm tỷ tham số này. Theo một ước tính từ Đại học Washington, việc đào tạo một mô hình cỡ GPT-3 tiêu thụ lượng điện năng tương đương với hơn 1.000 hộ gia đình, hay để vận hành ChatGPT trong một ngày sẽ tiêu thụ năng lượng của  33.000 hộ gia đình ở Hoa Kỳ. 

Mô hình ngôn ngữ nhỏ
Mô hình ngôn ngữ nhỏ giúp giảm trọng tải dữ liệu cho doanh nghiệp

Trong khi đó, so với các mô hình độc quyền (proprietary model) của những ông lớn như OpenAI hay Google được huấn luyện bằng số lượng tham số đồ sộ, các mô hình ngôn ngữ nhỏ được đào tạo trên các bộ dữ liệu hạn chế hơn chỉ với “vài tỷ” tham số nhưng được huấn luyện trên những nguồn chất lượng cao như sách giáo khoa, tạp chí và nội dung đã được kiểm duyệt. Những mô hình này nhỏ hơn về số lượng tham số và yêu cầu về bộ nhớ, cho phép chúng chạy trên hạ tầng nhỏ hơn với chi phí tối ưu hơn. Mặc dù kích thước nhỏ hơn, các mô hình ngôn ngữ nhỏ (SLMs) vẫn tạo ra nội dung chất lượng tương đương với các mô hình ngôn ngữ lớn.  PHI-2Mistral 7B của Microsoft là hai ví dụ tiêu biểu của SLMs đầy hứa hẹn cho thế hệ ứng dụng AI tổng hợp tiếp theo. Hay ViGPT – ChatGPT phiên bản Việt đầu tiên dành cho người dùng cuối tại Việt Nam của VinBigdata, chỉ với 1,6 tỷ tham số nhưng có khả năng tương đương với các mô hình nhiều tỷ tham số, cho phép người dùng tối ưu hóa sử dụng với nhiều mục đích khai thác thông tin và giải quyết vấn đề khác nhau trong đời sống.

3. Lợi thế của mô hình ngôn ngữ nhỏ với các bài toán doanh nghiệp

Giờ đây, các doanh nghiệp có thể tạo nên sự khác biệt thông qua việc tự phát triển mô hình riêng biệt, thay vì sử dụng dịch vụ từ các nhà phát triển AI trên thị trường. Với phương pháp và dữ liệu phù hợp, các mô hình và công cụ AI mã nguồn mở hiện có thể được điều chỉnh cho phù hợp với hầu hết các nhu cầu thực tế của doanh nghiệp, từ việc hỗ trợ khách hàng, quản lý chuỗi cung ứng đến phân tích tài liệu phức tạp.

Các mô hình mã nguồn mở mang lại cho các tổ chức cơ hội phát triển các mô hình AI tùy chỉnh mạnh mẽ, được huấn luyện dựa trên dữ liệu độc quyền và tinh chỉnh cho các nhu cầu cụ thể mà không cần đầu tư cơ sở hạ tầng quá tốn kém. Điều này đặc biệt phù hợp trong các lĩnh vực như pháp lý, y tế hoặc tài chính – ngân hàng, nơi mà các mô hình nền tảng có thể chưa có dữ liệu và các khái niệm chuyên môn trong quá trình huấn luyện.

Do đó, năm 2024 sẽ là năm mà các mô hình mã nguồn mở và các mô hình độc quyền cạnh tranh một cách sòng phẳng. Bên cạnh lợi thế sở hữu độc quyền luồng dữ liệu của các mô hình mã nguồn đóng, các mô hình mã nguồn mở vẫn có cơ hội phát triển mạnh mẽ khi các doanh nghiệp ngày càng ưa chuộng các mô hình có thể tự tinh chỉnh theo nhu cầu đặc thù riêng.  

4. Mô hình mã nguồn mở sẽ trở nên cạnh tranh với các mô hình độc quyền

Như đã đề cập ở phần trên, 2024 là năm của các mô hình AI tạo sinh mã nguồn mở phát triển và trở nên phổ biến. Meta Llama 2 70B, Falcon 180B và Mixtral-8x7B của Mistral AI, vốn đã được đón nhận rộng rãi vào năm 2023, có hiệu suất tương đương với các mô hình độc quyền như GPT-3.5, Claude 2 và Jurassic-2. ViGPT phát triển bởi VinBigdata cũng chứng minh sức nóng của mình trên đường đua công nghệ với hơn 600GB dữ liệu Tiếng Việt tinh chỉnh, cung cấp cho người dùng cuối và các doanh nghiệp nguồn thông tin, dữ liệu “thuần Việt” mà chưa nền tảng AI nào có. Ngoài ra, VinBigdata còn cho ra mắt một phiên bản mã nguồn mở dành riêng cho cộng đồng khoa học, nơi mà các nhà phát triển AI có thể xây dựng các sản phẩm AI tạo sinh từ mô hình gốc.

Mã nguồn mở
Mã nguồn mở tạo cơ hội cho các doanh nghiệp tự thiết kế mô hình phù hợp với đặc thù kinh doanh riêng

Trong tương lai, khoảng cách giữa các mô hình mã nguồn mở và mô hình độc quyền sẽ ngày càng thu hẹp, tạo điều kiện cho các doanh nghiệp triển khai các mô hình AI tạo sinh theo hình thức hybrid hoặc trên hạ tầng lưu trữ riêng (on-premise).

Trong năm 2024, các phiên bản tiếp theo của các mô hình từ Meta, Mistral và có thể cả những doanh nghiệp mới tham gia sẽ được phát hành, trở thành lựa chọn thay thế khả thi cho các mô hình độc quyền có sẵn dưới dạng API.

5. Trợ lý ảo tương tác hiệu quả hơn

Với những nghiệp vụ phức tạp và nhu cầu ngày càng tăng từ thị trường, các doanh nghiệp sẽ ưu tiên sử dụng trợ lý ảo hơn các chatbot hiện tại. Đặc biệt, AI đa thể thức đã kết hợp các luồng và định dạng thông tin mới giúp các trợ lý ảo mở rộng khả năng xử lý thông tin không chỉ về giao tiếp và hướng dẫn mà còn cả tự động hóa quy trình, đáp ứng được nhiều kịch bản, giúp gia tăng trải nghiệm khách hàng.

Các doanh nghiệp đang dần nhận ra rằng trợ lý ảo không chỉ đơn thuần là một công cụ để tương tác với khách hàng, mà còn là một nguồn lực mạnh mẽ để tối ưu hóa quy trình nội bộ và cung cấp dịch vụ tốt hơn. Với khả năng học và cải thiện liên tục, trợ lý ảo có thể trở thành một đối tác đáng tin cậy, đồng hành cùng doanh nghiệp trong việc thích nghi và phát triển trong môi trường kinh doanh ngày càng cạnh tranh.

Trợ lý ảo ViVi phát triển bởi VinBigdata
Trợ lý ảo ViVi phát triển bởi VinBigdata

Với tầm nhìn phát triển công nghệ Việt, VinBigdata đã giới thiệu ViVi – trợ lý ảo toàn diện dành riêng cho người Việt, giúp người dùng thực hiện các tác vụ rảnh tay thông qua giọng nói. Được huấn luyện với hơn 30.000 giờ dữ liệu giọng nói chất lượng cao, ViVi có khả năng nhận diện chính xác đến 98% các câu lệnh Tiếng Việt với các nhóm từ phổ thông. Vivi cũng được đánh giá cao về độ tự nhiên khi giao tiếp với người dùng nhờ vào bốn giọng đàm thoại tự chọn (Nam – Nữ miền Bắc và Nam). Theo kế hoạch, Trợ lý ảo ViVi sẽ được tích hợp AI tạo sinh giúp mang lại những trải nghiệm mượt mà và tự nhiên hơn, nâng tầm cuộc sống người Việt. Hiện nay, sản phẩm này đã được tích hợp vào hệ sinh thái các giải pháp trên xe ôtô, nhà thông minh và nhiều lĩnh vực khác, nhận được sự hưởng ứng mạnh mẽ từ doanh nghiệp và người dùng.

Liên hệ với VinBigdata để nhận tư vấn:

Bình luận

Địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu

Bài viết liên quan

    Cảm ơn bạn đã quan tâm và ủng hộ.

    File hiện tại không thể tải xuống
    Vui lòng liên hệ hỗ trợ.

    VinOCR eKYC
    Chọn ảnh từ máy của bạn

    Chọn ảnh demo dưới đây hoặc tải ảnh lên từ máy của bạn

    Tải lên ảnh CMND/CCCD/Hộ chiếu,...

    your image
    Chọn ảnh khác
    Tiến hành xử lý
    Thông tin đã được xử lý
    Mức độ tin cậy: 0%
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    Xác thực thông tin thẻ CMND/CCCD

    Vui lòng sử dụng giấy tờ thật. Hãy đảm bảo ảnh chụp không bị mờ hoặc bóng, thông tin hiển thị rõ ràng, dễ đọc.

    your image
    Chọn ảnh khác

    Ảnh mặt trước CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh mặt sau CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh chân dung

    This site is registered on wpml.org as a development site.