Nhiều doanh nghiệp hiện đang chạy đua phát triển các ứng dụng AI tạo sinh và AI hội thoại nhằm tăng cường khả năng cạnh tranh và bắt kịp với làn sóng AI thế hệ mới. Một trong những chìa khóa thành công của các ứng dụng AI này là dữ liệu.
Chọn được bộ dữ liệu phù hợp với các dự án học máy là một trong những bước quan trọng nhất phải được thực hiện đúng. Dù làm việc với các nhà cung cấp dịch vụ thu thập dữ liệu hay tự chuẩn bị tập dữ liệu của riêng mình, điều cần thiết là xác định được tập dữ liệu nào đáp ứng đúng yêu cầu.
Bài viết này sẽ mang đến cho bạn tất cả những điều cần biết về các bộ dữ liệu học máy và cách chọn bộ dữ liệu phù hợp để bắt đầu dự án của mình. Bạn cũng có thể tham khảo và lưu lại danh sách 10 bộ dữ liệu miễn phí để đào tạo mô hình học máy.
Bộ dữ liệu học máy là gì?
Bộ dữ liệu học máy (ML) là tập hợp dữ liệu được sử dụng để huấn luyện mô hình. Một tập dữ liệu đóng vai trò là một ví dụ để dạy thuật toán học máy cách đưa ra dự đoán. Các loại dữ liệu phổ biến bao gồm:
- Dữ liệu văn bản
- Dữ liệu hình ảnh
- Dữ liệu âm thanh
- Dữ liệu video
- Dữ liệu số
Dữ liệu thường được gán nhãn/chú thích đầu tiên để thuật toán hiểu được kết quả hình dung.
Tại sao phải chuẩn bị bộ dữ liệu cho học máy?
Chuẩn bị và chọn tập dữ liệu phù hợp là một trong những bước quan trọng nhất, quyết định sự thành công hay thất bại trong quá trình đào tạo mô hình AI/ML.
Có 3 mục đích chính của bộ dữ liệu AI/ML:
- Để đào tạo mô hình
- Để đo độ chính xác của mô hình sau khi được huấn luyện
- Để cải thiện mô hình sau khi đã được triển khai trong môi trường thực tế.
Phân loại các bộ dữ liệu học máy
Toàn bộ tập dữ liệu được chia thành 3 tập con như sau:
1. Tập dữ liệu huấn luyện (Training dataset)
Đây là một trong những tập con quan trọng nhất của toàn bộ tập dữ liệu, bao gồm khoảng 60% tổng số dữ liệu. Bộ này bao gồm dữ liệu ban đầu sẽ được sử dụng để huấn luyện mô hình. Nói cách khác, nó dạy thuật toán những gì cần hiểu trong dữ liệu.
Ví dụ: hệ thống nhận diện biển số xe sẽ được đào tạo bằng dữ liệu hình ảnh có nhãn cho biết vị trí (ví dụ: phía trước hoặc phía sau ô tô), định dạng dữ liệu của biển số xe và các đối tượng tương tự để học đâu là những thông tin cần phát hiện và đâu là những thông tin cần loại bỏ.
2. Tập dữ liệu kiểm thử (Validation dataset)
Tập con này chiếm khoảng 20% tổng số dữ liệu và được sử dụng để đánh giá tất cả các tham số của mô hình sau khi giai đoạn huấn luyện hoàn tất. Dữ liệu kiểm thử giúp xác định bất kỳ điểm yếu nào của mô hình. Dữ liệu này cũng được sử dụng để xác định xem mô hình có phù hợp hay không.
3. Tập dữ liệu thử nghiệm (Test dataset)
Tập con này được sử dụng vào ở giai đoạn cuối của quá trình đào tạo, nó chiếm 20% còn lại của tập dữ liệu. Mô hình chưa từng bắt gặp dữ liệu trong test dataset và dữ liệu này được sử dụng để kiểm tra tính chính xác của mô hình. Nói một cách đơn giản hơn, tập dữ liệu này sẽ cho biết mô hình đã học được bao nhiêu từ 2 tập hợp con trước đó.
10 bộ dữ liệu học máy miễn phí năm 2024
1. Boston House Price Dataset
Bộ dữ liệu bao gồm giá nhà ở khu vực Boston dựa trên nhiều yếu tố, chẳng hạn như số phòng, diện tích, tỷ lệ tội phạm… Đây là khởi đầu tốt cho những người mới bắt đầu học ML đang tìm kiếm các dự án học máy dễ. Bạn có thể thực hành kỹ năng hồi quy tuyến tính (linear regression) để dự đoán giá của một ngôi nhà nhất định. Đây cũng là một tập dữ liệu học máy rất phổ biến, vì vậy nếu gặp khó khăn, bạn có thể tìm thấy rất nhiều tài nguyên hữu ích về nó.
2. Iris Dataset
Iris Dataset là một tập dữ liệu khác phù hợp với những ai mới bắt đầu với ML và muốn rèn luyện về hồi quy tuyến tính. Bộ dữ liệu chứa thông tin kích thước của các phần khác nhau trên bông hoa. Tất cả các kích thước này đều là số, giúp bạn dễ dàng triển khai và không cần xử lý trước. Mục tiêu là nhận dạng mẫu – phân loại hoa dựa trên các kích cỡ khác nhau.
3. MNIST dataset
MNIST là tập dữ liệu phổ biến nhất trong ML. Tất cả những ai làm về học máy chắc chắn đều đã thử nghiệm nó ít nhất một lần.
MNIST bao gồm 70.000 hình ảnh được dán nhãn có chữ số viết tay (0-9). 60.000 trong số đó nằm ở tập huấn luyện và 10.000 ở tập test. Bản thân hình ảnh có kích thước 28×28 pixel và ở thang độ xám. Chúng đã được tiền xử lý kỹ lưỡng, do đó bạn không mất nhiều thời gian xử lý dữ liệu.
Ưu điểm nổi bật của MNIST là tính dễ sử dụng và linh hoạt. Với kích thước hình ảnh nhỏ, bạn không phải lo lắng nhiều về thời gian huấn luyện, vì vậy có thể tập trung vào giai đoạn thử nghiệm. Ngoài ra, tập dữ liệu này phù hợp với nhiều mô hình khác nhau. Do đó, nếu là người mới bắt đầu, bạn có thể sử dụng linear classifier đơn giản hoặc thử thực hành một mạng sâu hơn. MNIST cũng giúp tìm hiểu về Convolutional Neural Networks (CNN).
4. Dog Breed Identification
Nếu tập dữ liệu MNIST vừa đề cập ở trên là một tập dữ liệu chuyển tiếp từ feed forward neural networks sang Thị giác máy tính, thì tập Dog Breed Identification hoàn toàn thuộc lĩnh vực này. Đúng như tên gọi, đây là một tập dữ liệu hình ảnh của các giống chó khác nhau. Bài toán của bạn là xây dựng một mô hình có thể dự đoán chính xác hình ảnh chụp giống chó nào. Vì vậy, đây là lúc bạn phát huy các kỹ năng CNN đã học được từ tập dữ liệu MNIST và xây dựng mô hình mới dựa trên chúng.
5. ImageNet
ImageNet là một trong những bộ dữ liệu ML tốt nhất hiện có, tập trung vào Thị giác máy tính. Nó bao gồm hơn 1.000 danh mục đồ vật hoặc con người với nhiều hình ảnh liên quan. Đây là bộ dữ liệu được sử dụng để thực hiện một trong những bài toán ML lớn nhất – Thử thách nhận dạng hình ảnh quy mô lớn (ILSVRC) của ImageNet, thử thách đã tạo ra nhiều Mạng thần kinh tiên tiến hiện đại.
6. Breast Cancer Wisconsin Diagnostic Dataset
Tập dữ liệu chẩn đoán Ung thư vú Wisconsin là một tập dữ liệu học máy thú vị khác dành cho các dự án phân loại. Thiết kế của nó dựa trên hình ảnh được số hóa của một vết chích hút kim nhỏ của khối u vú. Trong hình ảnh được số hóa này, các đặc điểm của nhân tế bào được đánh dấu. Đối với mỗi nhân tế bào, mười đặc điểm có giá trị thực được tính toán, ví dụ như bán kính, kết cấu, chu vi, diện tích, v.v. Có hai loại dự đoán – lành tính và ác tính. Trong cơ sở dữ liệu này, có 569 mẫu, bao gồm 357 mẫu lành tính và 212 mẫu ác tính.
7. Amazon Reviews Dataset
Đây là bộ dữ liệu về Xử lý ngôn ngữ tự nhiên (NLP). Amazon Review Dataset bao gồm các đánh giá (xếp hạng, văn bản, lượt đánh giá hữu ích), dữ liệu sản phẩm (mô tả, thông tin danh mục, giá cả, thương hiệu và các tính năng hình ảnh) cùng các liên kết (cũng như các biểu đồ đã xem/đã mua). Dữ liệu bao gồm các bài đánh giá trong hơn 20 năm.
8. BBC News
Tiếp tục với Xử lý Ngôn ngữ Tự nhiên (NLP), bài toán bây giờ là phân loại văn bản. Để phát triển bộ phân loại tin tức, bạn cần một tập dữ liệu tiêu chuẩn. BBC News dataset chứa hơn 2.200 bài báo trong các danh mục khác nhau, do đó đây là một lựa chọn phù hợp.
9. YouTube Dataset
Phân loại video là bài toán nâng cao hơn so với phân loại hình ảnh và phân loại văn bản ở trên. Nếu muốn luyện tập bài toán này, bạn nên tham khảo YouTube Dataset, bộ dữ liệu chứa các video được lấy mẫu thống nhất với nhãn và chú thích chất lượng cao.
10. Catching Illegal Fishing
Đây là tập dữ liệu dành cho các chuyên gia trong lĩnh vực học máy.
Bộ dữ liệu này được phát triển dựa trên một bài toán thực tế. Trên các đại dương có rất nhiều tàu thuyền và việc theo dõi thủ công hoạt động của chúng là điều không thể. Đó là lý do tại sao việc phát triển một hệ thống có thể xác định các hoạt động đánh bắt cá bất hợp pháp thông qua dữ liệu vệ tinh và định vị địa lý được đề xuất. Với bộ dữ liệu Catching Illegal Fishing dataset, tổ chức Giám sát Đánh bắt Toàn cầu (The Global Fishing Watch) cung cấp miễn phí dữ liệu theo thời gian thực có thể được sử dụng để xây dựng hệ thống này