Trong bối cảnh nhiều quốc gia và doanh nghiệp lớn trên thế giới đang khai thác mạnh mẽ tiềm năng của AI trong mọi lĩnh vực, Việt Nam cũng đang tích cực tham gia vào cuộc đua cách mạng này. Tuy nhiên, một trong những thách thức lớn chúng ta gặp phải nằm ở việc dữ liệu tiếng Việt để đào tạo các mô hình AI, so với các ngôn ngữ khác trên thế giới, còn hạn chế. Điều này dẫn đến khả năng hỗ trợ tiếng Việt trong AI chưa thật sự mạnh mẽ, khiến chúng ta chưa thể tận dụng hết tiềm năng mà AI mang lại.
Trong khi đó, để đào tạo các mô hình AI hiệu quả và chính xác, một hệ cơ sở dữ liệu không chỉ đủ lớn mà còn phải đảm bảo chất lượng cao là điều kiện thiết yếu. Điều này đặc biệt quan trọng khi các ứng dụng AI được sử dụng trong những lĩnh vực đòi hỏi sự chính xác, độ tin cậy cao cùng đặc trưng bản địa như y tế hay giáo dục. Chính vì vậy, xây dựng một kho dữ liệu Việt chất lượng cao, giúp AI hiểu sâu sắc và phản ánh đúng ngôn ngữ, văn hóa của Việt Nam là yếu tố sống còn.
Nhận thấy tầm quan trọng của việc giải bài toán dữ liệu, ngay từ những ngày đầu thành lập, VinBigdata đã xác định việc xây dựng một hệ cơ sở dữ liệu Việt là điều tiên quyết cần phải thực hiện. Đây cũng chính là nhiệm vụ mang tính nền tảng về công nghệ, sẽ góp phần đặt những viên gạch đầu tiên cho sự phát triển và bùng nổ AI tại Việt Nam.
Quá trình xây dựng kho dữ liệu của VinBigdata được thực hiện một cách cẩn trọng và bài bản, bắt đầu từ việc thu thập, làm sạch, cho đến xử lý, gán nhãn dữ liệu,… Trong đó, quy trình gán nhãn dữ liệu được triển khai chặt chẽ bởi đội ngũ chuyên gia, với hệ thống gán nhãn và quy trình giám sát, kiểm tra chéo nghiêm ngặt để đảm bảo rằng dữ liệu có chất lượng cao và phù hợp với yêu cầu của các mô hình học máy.
Song song, để đảm bảo tính đa dạng của nguồn dữ liệu, VinBigdata đã có sự đầu tư và huy động mạnh mẽ về nguồn lực, con người cũng như cơ sở vật chất. Điển hình như việc VinBigdata đã tiến hành thu âm giọng nói từ nhiều đối tượng với các ngôn ngữ địa phương khác nhau hay hợp tác với các tổ chức, bệnh viện để thu thập nguồn dữ liệu phong phú về hình ảnh con người, hình ảnh y tế.
Thành quả sau những nỗ lực này là hệ cơ sở dữ liệu khổng lồ chất lượng cao lên tới 3.500 TB thuộc hơn 100 lĩnh vực kiến thức, hơn hàng trăm ngàn giờ dữ liệu giọng nói chất lượng cao, hàng triệu dữ liệu hình ảnh khuôn mặt người, phương tiện, autopilot, hơn 2 triệu dữ liệu ảnh y tế,… Sử dụng hệ cơ sở dữ liệu này, VinBigdata tiếp tục đào tạo các mô hình AI, phát triển và làm chủ những công nghệ tiên tiến nhất trên thế giới trong lĩnh vực Xử lý Ngôn ngữ và tiếng nói và Thị giác máy tính như AI tạo sinh, Mô hình Ngôn ngữ lớn tiếng Việt, hay gần đây nhất là Mô hình Ngôn ngữ Thị giác. Dựa trên những công nghệ lõi này, các giải pháp AI thuần Việt cũng lần lượt được ra mắt, triển khai cho các doanh nghiệp nội địa, qua đó trực tiếp phục vụ hàng chục triệu người dùng trên khắp đất nước, góp phần giải các bài toán đặc trưng của người Việt.
Bên cạnh đó, ngoài dữ liệu giọng nói và hình ảnh, VinBigdata còn sở hữu kho dữ liệu quy mô lớn với hơn 1.200 TB dữ liệu y sinh, hơn 1.000 hệ gen người Việt, góp phần thúc đẩy nghiên cứu và phát triển các giải pháp mang lại lợi ích lâu dài cho nhiều thế hệ người Việt trong tương lai.
Với định hướng phát triển công nghệ lõi dựa trên nền tảng dữ liệu Việt khổng lồ, VinBigdata không ngừng mở rộng và làm giàu kho dữ liệu, tận dụng tài nguyên này để đào tạo các mô hình AI tiên tiến. VinBigdata kỳ vọng không chỉ tạo ra những sản phẩm AI Việt đột phá với tiêu chuẩn quốc tế mà còn góp phần tạo đà cho sự tăng trưởng mạnh mẽ của công nghệ Việt, khẳng định vị thế trên bản đồ công nghệ thế giới.