Theo Gartner, data fabric nằm trong top 3 xu hướng về dữ liệu năm 2021. “Data fabric is the foundation” (data fabric là nền tảng), giúp giảm 30% thời gian thiết kế tích hợp, 30% triển khai và 70% bảo trì. “Data fabric có thể tận dụng các kỹ năng và công nghệ hiện có từ các trung tâm dữ liệu, hồ dữ liệu và kho dữ liệu đồng thời giới thiệu các phương pháp và công cụ mới cho tương lai.”
Vậy Data Fabric là gì, có kiến trúc như thế nào và ứng dụng ra sao. Bài viết này sẽ mang đến cho bạn đọc góc nhìn toàn diện về một từ khóa đang “hot” trong ngành dữ liệu!
Data fabric là gì?
Kết cấu dữ liệu (Data Fabric) là kiến trúc hỗ trợ việc tích hợp đầu cuối của các luồng dữ liệu (data pipeline) và môi trường đám mây thông qua việc sử dụng các hệ thống thông minh và tự động.
Trong thập kỷ qua, sự phát triển của đám mây lai (hybrid cloud), trí tuệ nhân tạo, Internet vạn vật (IoT) và điện toán biên (edge computing) đã dẫn đến sự bùng nổ của dữ liệu lớn, tạo ra các thách thức về kho chứa dữ liệu, rủi ro bảo mật,…. Điều này làm cho việc thống nhất và quản trị môi trường dữ liệu trở thành ưu tiên hàng đầu của các doanh nghiệp. Khi đó, data fabric (kết cấu dữ liệu) trở thành một trong những giải pháp được thực hiện để hợp nhất các hệ thống dữ liệu khác nhau, tăng cường các biện pháp bảo mật và quyền riêng tư, đồng thời mở rộng khả năng truy cập dữ liệu cho người dùng.
Bên cạnh đó, việc tích hợp dữ liệu thông qua data fabric cũng cho phép đưa ra các quyết định toàn diện hơn và tập trung vào dữ liệu. Thực tế, tùy vào từng ngành nghề, một doanh nghiệp có thể sở hữu các nền tảng dữ liệu khác nhau, đôi khi xảy ra tình trạng chồng chéo (ví dụ: dữ liệu nhân sự, khách hàng, chuỗi cung ứng…). Trong trường hợp này, Data fabric giúp những người ra quyết định xem xét dữ liệu một cách tổng quan và chặt chẽ để tạo kết nối giữa các dữ liệu khác nhau, từ đó thu hẹp khoảng cách trong hiểu biết về khách hàng, sản phẩm và quy trình, thúc đẩy các sáng kiến tự động hóa và chuyển đổi số trong doanh nghiệp.
Data fabric và data virtualization
Ảo hóa dữ liệu (data virtualization) là một trong những công nghệ hỗ trợ cách tiếp cận kết cấu dữ liệu. Thay vì di chuyển một cách vật lý dữ liệu từ các nguồn tại chỗ và đám mây bằng quy trình ETL tiêu chuẩn (trích xuất, chuyển đổi, truyền tải), công cụ ảo hóa dữ liệu kết nối với các nguồn khác nhau, chỉ tích hợp siêu dữ liệu được yêu cầu và tạo một lớp dữ liệu ảo. Điều này cho phép người dùng tận dụng dữ liệu nguồn trong thời gian thực.
Kiến trúc data fabric
Bằng cách tận dụng các dịch vụ dữ liệu và API, data fabric tập hợp dữ liệu từ các hệ thống, hồ dữ liệu, kho dữ liệu, cơ sở dữ liệu SQL và ứng dụng, từ đó cung cấp cái nhìn tổng thể về hiệu suất kinh doanh. Trái ngược với các hệ thống lưu trữ dữ liệu riêng lẻ, data fabric nhằm mục đích tạo ra tính linh hoạt hơn trên các môi trường dữ liệu, hạn chế tình trạng dữ liệu trở nên khó di chuyển hơn khi nó phát triển về kích thước. Data fabric loại bỏ những phức tạp công nghệ liên quan đến việc di chuyển, chuyển đổi và tích hợp dữ liệu, giúp tất cả dữ liệu có sẵn trong toàn doanh nghiệp.
Một ví dụ về kiến trúc data fabric trong môi trường đa đám mây được hình họa theo mô hình dưới đây, trong đó một đám mây, như AWS, quản lý việc nhập dữ liệu, một nền tảng khác, chẳng hạn như Azure, giám sát việc chuyển đổi và tiêu thụ dữ liệu. Sau đó, có thể có nhà cung cấp thứ ba, cung cấp các dịch vụ phân tích.
Tuy nhiên, trên đây chỉ là một ví dụ. Không có một kiến trúc dữ liệu duy nhất cho một kết cấu dữ liệu vì các doanh nghiệp khác nhau có nhu cầu khác nhau. Số lượng các nhà cung cấp đám mây và triển khai cơ sở hạ tầng dữ liệu khác nhau đảm bảo sự khác biệt giữa các doanh nghiệp. Song có thể chỉ ra một số điểm chung của các kiến trúc data fabric, bao gồm:
- Lớp quản lý dữ liệu: chịu trách nhiệm quản trị dữ liệu và bảo mật dữ liệu.
- Lớp nhập dữ liệu: bắt đầu kết hợp dữ liệu đám mây với nhau, tìm kiếm các kết nối giữa dữ liệu có cấu trúc và không có cấu trúc.
- Lớp xử lý dữ liệu: tinh chỉnh dữ liệu để đảm bảo rằng chỉ dữ liệu có liên quan mới được hiển thị để trích xuất dữ liệu.
- Lớp điều phối dữ liệu: thực hiện một số công việc quan trọng nhất đối với data fabric – chuyển đổi, tích hợp và làm sạch dữ liệu, giúp cho các nhóm trên toàn doanh nghiệp có thể sử dụng được.
- Lớp khám phá dữ liệu: khám phá cơ hội mới để tích hợp các nguồn dữ liệu khác nhau. Ví dụ: nó có thể tìm cách kết nối dữ liệu trong kho dữ liệu chuỗi cung ứng và hệ thống dữ liệu quản lý quan hệ khách hàng, tạo cơ hội mới để cung cấp sản phẩm phù hợp, cải thiện sự hài lòng của khách hàng.
- Lớp truy cập dữ liệu: cho phép tiêu thụ dữ liệu, đảm bảo quyền phù hợp cho các nhóm nhất định, tuân theo nguyên tắc quản trị. Ngoài ra, lớp này giúp hiển thị dữ liệu có liên quan thông qua việc sử dụng trang tổng quan và các công cụ trực quan hóa dữ liệu khác.
Ưu điểm của kiến trúc data fabric
Kiến trúc data fabric đang này càng được chấp nhận sử dụng nhiều hơn bởi các doanh nghiệp trên thị trường. Theo báo cáo của Gartner (2021), data fabric mang lại những cải tiến cụ thể về hiệu quả, giúp giảm thời gian thiết kế tích hợp xuống 30%, triển khai 30% và bảo trì 70%. Cụ thể, có thể kể đến một số ưu điểm của data fabric như:
- Tích hợp thông minh: Data fabric sử dụng biểu đồ tri thức ngữ nghĩa (semantic knowledge graphs), quản lý siêu dữ liệu và học máy để thống nhất nhiều loại dữ liệu trên nhiều điểm cuối khác nhau. Điều này hỗ trợ các nhóm quản lý dữ liệu trong việc gộp các bộ dữ liệu liên quan lại với nhau cũng như tích hợp các nguồn dữ liệu mới vào hệ sinh thái dữ liệu của doanh nghiệp. Chức năng này tự động hóa các tác vụ của quản lý dữ liệu, đồng thời loại bỏ lỗ hổng trên các hệ thống dữ liệu, tập trung hóa các phương pháp quản trị dữ liệu và cải thiện chất lượng dữ liệu tổng thể.
- Dân chủ hóa dữ liệu: Các kiến trúc data fabric tạo điều kiện thuận lợi cho các ứng dụng tự phục vụ và mở rộng quyền truy cập dữ liệu cho đội ngũ kỹ sư dữ liệu, nhà phát triển và nhóm phân tích dữ liệu. Việc giảm tắc nghẽn dữ liệu sau đó sẽ thúc đẩy năng suất, cho phép người dùng doanh nghiệp đưa ra quyết định kinh doanh nhanh chóng hơn.
- Bảo vệ dữ liệu tốt hơn: Việc mở rộng quyền truy cập dữ liệu cũng không làm ảnh hưởng đến các biện pháp bảo mật và quyền riêng tư của dữ liệu. Trên thực tế, điều đó có nghĩa là ngày càng có nhiều rào chắn quản lý dữ liệu xung quanh các kiểm soát truy cập, đảm bảo dữ liệu cụ thể chỉ có sẵn cho một số vai trò nhất định. Kiến trúc data fabric cũng cho phép các nhóm kỹ thuật và bảo mật triển khai mã hóa và bảo vệ dữ liệu nhạy cảm và độc quyền, giảm thiểu rủi ro xung quanh việc chia sẻ dữ liệu và vi phạm hệ thống.