Xuất hiện không lâu, song AI tạo sinh (GenAI) đã nhanh chóng giành được chỗ đứng trên thị trường AI toàn cầu. Các mô hình AI tạo sinh được đưa vào ứng dụng trong đa lĩnh vực, nhằm sáng tạo nội dung, sáng tác nhạc, lập trình, thiết kế nguyên mẫu sản phẩm (prototype).
Tuy nhiên, để khai thác tiềm năng của AI tạo sinh, cần một lượng dữ liệu rất lớn, đa dạng và phù hợp cho quá trình đào tạo mô hình. Yêu cầu này thách thức các nhà phát triển cũng như lãnh đạo doanh nghiệp, bởi việc thu thập và chuẩn bị dữ liệu vốn khó khăn và tốn nhiều nguồn lực.
Vậy làm thế nào để thu thập dữ liệu phục vụ các mô hình AI tạo sinh? Bài viết sẽ gợi ý 6 phương pháp để bạn tham khảo và lựa chọn.
Dữ liệu AI tạo sinh là gì?
Dữ liệu AI tạo sinh (Generative AI data) đề cập đến kho thông tin khổng lồ được sử dụng để đào tạo các mô hình AI tạo sinh. Dữ liệu này có thể bao gồm văn bản, hình ảnh, âm thanh hoặc video. Các mô hình tạo sinh tìm hiểu các mẫu đặc trưng từ dữ liệu, từ đó tạo ra nội dung mới phù hợp với độ phức tạp và cấu trúc của dữ liệu đầu vào. Một số tác vụ này bao gồm tạo hình ảnh, tạo video, xử lý ngôn ngữ tự nhiên, v.v.
Tầm quan trọng của dữ liệu AI tạo sinh
Kể từ khi ChatGPT của OpenAI được ra mắt, công nghệ AI tạo sinh đã làm mưa làm gió trong thế giới công nghệ. Các nhà lãnh đạo doanh nghiệp thể hiện sự lạc quan về các ứng dụng của AI tạo sinh trong nhiều lĩnh vực khác nhau.
Thành công của các mô hình AI tạo sinh nằm ở khả năng diễn đạt ngôn ngữ phù hợp với ngữ cảnh, các kĩ năng suy diễn, lập luận, phân tích nhằm hoàn thành được các thử thách từ người dùng. Để đạt được điều này, chất lượng của dữ liệu đầu vào là rất quan trọng. Dữ liệu được tùy chỉnh riêng và thường là độc quyền, có thể nâng cao đáng kể hiệu suất của các mô hình AI tạo sinh.
Ví dụ: Bloomberg đã phát triển BloombergGPT, một mô hình ngôn ngữ được đào tạo dựa trên dữ liệu tài chính cá nhân. Mô hình này vượt trội hơn các mô hình chung trong các nhiệm vụ liên quan đến tài chính, từ đó cho thấy việc sử dụng dữ liệu có chủ đích và mang tính đặc thù ngành có thể tạo ra lợi thế cạnh tranh trong thị trường AI tạo sinh.
6 Phương pháp thu thập dữ liệu cho AI tạo sinh
Khi đào tạo các mô hình AI tạo sinh như mô hình ngôn ngữ lớn (LLM) hoặc mô hình tạo hình ảnh, việc thu thập dữ liệu thường là thách thức đầu tiên đối với các nhà phát triển. Để giải quyết bài toán này, bạn có thể tham khảo 6 phương pháp dưới đây nhằm làm giàu thêm bộ dữ liệu hiện có.
1, Crowdsourcing
Crowdsourcing liên quan đến việc lấy dữ liệu từ một nhóm người quy mô lớn, thường là thông qua internet. Phương pháp này có thể cung cấp dữ liệu đa dạng và có chất lượng cao. Ví dụ, nếu đào tạo mô hình AI hội thoại, bạn có thể thu thập dữ liệu hội thoại từ cộng đồng người dùng trên khắp thế giới, giúp mô hình có thể hiểu và tương tác bằng nhiều ngôn ngữ và phong cách khác nhau. Tuy nhiên, thu thập dữ liệu từ cộng đồng đòi hỏi phải phát triển một nền tảng trực tuyến giúp doanh nghiệp thuê và quản lý nhóm thu thập dữ liệu.
2, Thu thập dữ liệu từ web
Thu thập dữ liệu từ web liên quan đến việc trích xuất dữ liệu tự động từ internet. Ví dụ: một mô hình AI tạo sinh tập trung vào tính năng viết tin tức có thể thu thập các bài viết từ nhiều trang web tin tức khác nhau.
Một số công cụ thu thập dữ liệu từ web bạn có thể tham khảo bao gồm:
- Scrapy: Khung thu thập dữ liệu web nguồn mở mạnh mẽ và được sử dụng rộng rãi trong Python. Ưu điểm của Scrapy là tính linh hoạt và khả năng mở rộng.
- Selenium: Không chỉ là một trình thu thập thông tin, Selenium còn là một khung thử nghiệm có thể được sử dụng để quét web bằng cách tự động hóa các trình duyệt. Selenium được sử dụng chủ yếu trong việc xử lý nội dung động được hiển thị bằng JavaScript.
- Beautiful Soup: Đây là thư viện Python giúp thu thập dữ liệu từ các tệp HTML và XML. Beautiful Soup cung cấp các phương thức đơn giản bằng Python để điều hướng, tìm kiếm và sửa đổi cây phân tích cú pháp (parse tree).
- Apache Nutch: Đây là trình thu thập dữ liệu web nguồn mở được viết bằng Java. Apache Nutch có khả năng mở rộng cao, phù hợp để xây dựng và duy trì các kho lưu trữ web quy mô lớn.
- Crawler4j: Crawler4j cũng là một trình thu thập dữ liệu web nguồn mở dựa trên Java cung cấp giao diện đơn giản để thu thập dữ liệu trên web và truy xuất các trang web.
- Heritrix: Trình thu thập dữ liệu web linh hoạt, có thể mở rộng và được thiết kế để lưu trữ web. Heritrix được sử dụng bởi nhiều tổ chức khác nhau cho mục đích lưu trữ.
- ParseHub: Công cụ trích xuất dữ liệu trực quan cho phép người dùng trích xuất dữ liệu từ các trang web mà không cần mã hóa.
- Octoparse: Tương tự như ParseHub, Octoparse là một công cụ quét web trực quan cho phép người dùng trích xuất dữ liệu mà không cần kỹ năng lập trình. Octoparse được biết đến vì tính dễ sử dụng và linh hoạt.
Ngoài ra, các nền tảng như mạng xã hội, blog và diễn đàn chứa nhiều nội dung do người dùng tạo ra và có thể được sử dụng làm dữ liệu đào tạo, tùy thuộc vào các cân nhắc về quyền riêng tư cũng như tính phù hợp với từng trường hợp sử dụng. Tuy nhiên, lưu ý rằng Reddit2 không còn cung cấp dữ liệu miễn phí cho các công ty đào tạo các mô hình AI tạo sinh.
3, Tạo dữ liệu tổng hợp
Với sự phát triển của các mô hình AI tạo sinh, việc tạo dữ liệu tổng hợp ngày càng thu hút sự chú ý của cộng đồng công nghệ. Theo cách tiếp cận này, một mô hình AI tạo sinh sẽ tạo ra dữ liệu tổng hợp để huấn luyện một mô hình khác. Ví dụ: có thể sử dụng ChatGPT hoặc Llama để sinh dữ liệu giả hội thoại nhằm huấn luyện kĩ năng hội thoại cho các mô hình ngôn ngữ nhỏ hơn; hoặc sử dụng Dall-E để sinh dữ liệu hình ảnh giúp tăng cường dữ liệu cho các mô hình phân loại, phát hiện thực thể, v.v.
4, Bộ dữ liệu mở
Nhiều tổ chức và cá nhân cung cấp công khai các bộ dữ liệu mở phục vụ mục đích nghiên cứu. Những bộ dữ liệu này hoàn toàn có thể được sử dụng để đào tạo mô hình AI tạo sinh. Bạn có thể tham khảo một số nguồn dữ liệu như:
- Wikipedia đối với dữ liệu văn bản
- ImageNet đối với dữ liệu hình ảnh
- LibriSpeech đối với dữ liệu âm thanh
- Sách
- Báo chí thời sự
- Tạp chí khoa học
5, Tăng cường dữ liệu
Dữ liệu hiện có có thể được sửa đổi hoặc kết hợp để tạo dữ liệu mới. Cách tiếp cận này được gọi là tăng cường dữ liệu. Ví dụ: hình ảnh có thể được xoay, thu nhỏ hoặc biến đổi theo nhiều cách khác, trong khi dữ liệu văn bản có thể được tổng hợp bằng cách thay thế, xóa hoặc sắp xếp lại các từ.
Dưới đây là một ví dụ cho thấy việc sử dụng mạng GAN để tăng cường dữ liệu chụp CT não.
6, Dữ liệu người dùng
Dữ liệu độc quyền, chẳng hạn như nhật ký cuộc gọi (call log) của khách hàng, cũng có thể được sử dụng để đào tạo các mô hình ngôn ngữ lớn, đặc biệt cho các nhiệm vụ liên quan đến dịch vụ khách hàng, chẳng hạn như tạo phản hồi tự động, phân tích cảm xúc hoặc nhận dạng ý định. Tuy nhiên, một số yếu tố quan trọng phải được xem xét khi sử dụng dữ liệu này là:
- Phiên âm: Nhật ký cuộc gọi, thường là âm thanh, cần phiên âm thành văn bản để đào tạo các mẫu dựa trên văn bản như GPT-3 hoặc GPT-4.
- Quyền riêng tư: Đảm bảo nhật ký cuộc gọi được ẩn danh và tuân thủ các quy định về quyền riêng tư, cũng như có sự đồng thuận rõ ràng của khách hàng.
- Thiên kiến: Nhật ký cuộc gọi có thể chứa các ý kiến chủ quan, làm ảnh hưởng đến hiệu suất của mô hình trên các loại cuộc gọi hoặc thời gian khác nhau.
- Làm sạch dữ liệu: Dữ liệu cuộc gọi cần được làm sạch để loại bỏ nhiễu như cuộc trò chuyện không liên quan, tiếng ồn xung quanh hoặc lỗi phiên âm.