Từ dữ liệu thô đến sản phẩm AI: Quy trình diễn ra như thế nào?

Ở FriData tuần trước, chúng ta đã tìm hiểu về Xử lý dữ liệu: từ định nghĩa đến chu trình và phân loại. Tuy nhiên, đây mới chỉ là một phần rất nhỏ trong việc ứng dụng dữ liệu nhằm phát triển một sản phẩm AI hoàn thiện. Vậy bức tranh tổng quan hơn sẽ diễn ra như thế nào? FriData tuần này sẽ đưa đến cái nhìn tổng thể về quy trình từ dữ liệu thô đến một sản phẩm AI. Theo đó, toàn bộ quá trình xây dựng một sản phẩm ứng dụng Học máy có thể được chia thành các bước sau:

Xác định bài toán và sản phẩm khả dụng

Bước này bao gồm việc xác định mục tiêu phát triển sản phẩm và các bài toán có liên quan. Khi bản nháp đầu tiên của sản phẩm hoặc sản phẩm khả dụng (Minimal Viable Product – MVP) được phát triển, bước tiếp theo là chạy thử nghiệm để kiểm tra các vấn đề và lựa chọn chỉ số cũng như cách tiếp cận phù hợp để giải quyết vấn đề đó. 

Thu thập và chuẩn bị dữ liệu

Máy học từ dữ liệu. Do đó, các nhà phát triển cần cung cấp một tập hợp các ví dụ để máy có thể tiến hành tổng quát hóa từ đó. Có càng nhiều ví dụ, kết quả máy trả ra càng tốt. Dữ liệu được cung cấp kèm đáp án chính xác được gọi là dữ liệu đào tạo hoặc dữ liệu có dán nhãn. 

Ở bước thu thập và chuẩn bị dữ liệu, bạn cần xác định nguồn dữ liệu, xây dựng một kho lưu trữ, đồng thời tiến hành khám phá dữ liệu cũng như lựa chọn cột và trường phù hợp. Các phương pháp được khuyên dùng bao gồm tìm nạp dữ liệu thông qua API, phương pháp dữ liệu lớn hoặc từ Data Warehouse. Các bước cuối của giai đoạn này là làm sạch, xử lý và lưu trữ dữ liệu.

Lựa chọn và hoàn thiện mô hình

Bước tiếp theo là lựa chọn và hoàn thiện mô hình, trong đó bao gồm phát triển các framework liên quan nhằm xây dựng giải pháp. Ở đây, các mô hình sẽ diễn giải dữ liệu và đưa ra kết quả. Phân tích khám phá – cả đơn biến và song biến – nên được thực hiện để tóm tắt các đặc điểm chính của mô hình. Các bước tiếp theo bao gồm chuyển đổi tập dữ liệu thô ban đầu thành tập các thuộc tính (feature engineering) và lựa chọn để trích xuất các tính năng từ dữ liệu. Cuối cùng, bạn có thể lựa chọn mô hình bằng cách sử dụng các phương pháp tập hợp (ensemble methods), trong đó, mạng thần kinh nhân tạo là một ví dụ. Cuối cùng, việc hoàn thiện mô hình có thể được thực hiện bằng cách trình tự hóa dữ liệu (serialize data) mà các công cụ như HDF5 có thể được sử dụng.

Tích hợp

Tích hợp bao gồm các bước như chọn framework (sử dụng flask, Django, streamlit, node J5), xây dựng giao diện người dùng (sử dụng HTML, CSS và Bootstrap) và tích hợp nó với framework đã chọn – front-end, back-end, API và DBs. Các bước cuối cùng bao gồm kiểm tra các thành phần và xác nhận kết quả.

Triển khai và giám sát

Bước cuối cùng là triển khai mô hình. Giải pháp cuối cùng phải đảm bảo tính bền vững và độc lập. Một phương pháp được đề xuất là sử dụng kỹ thuật containerization (đưa Virtualization lên cấp hệ điều hành) thông qua docker để triển khai dễ dàng hơn. Mô hình có thể được triển khai trên nền tảng đám mây hoặc tại chỗ. Cuối cùng, khâu quan trọng còn lại trong chiến lược phát triển sản phẩm là đặt cơ chế giám sát, bao gồm cả các biện pháp an ninh.

Bài viết liên quan

    Cảm ơn bạn đã quan tâm và ủng hộ.

    File hiện tại không thể tải xuống
    Vui lòng liên hệ hỗ trợ.

    VinOCR eKYC

    Chọn ảnh từ máy của bạn

    Chọn ảnh demo dưới đây hoặc tải ảnh lên từ máy của bạn

    Tải lên ảnh CMND/CCCD/Hộ chiếu,...

    your image
    Chọn ảnh khác
    Tiến hành xử lý

    Thông tin đã được xử lý

    Mức độ tin cậy: 0%

    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -

    Xác thực thông tin thẻ CMND/CCCD

    Vui lòng sử dụng giấy tờ thật. Hãy đảm bảo ảnh chụp không bị mờ hoặc bóng, thông tin hiển thị rõ ràng, dễ đọc.

    your image
    Chọn ảnh khác

    Ảnh mặt trước CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh mặt sau CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh chân dung

    This site is registered on wpml.org as a development site.