Để phát triển một sản phẩm công nghệ giọng nói như trợ lý ảo hay phần mềm nhận dạng giọng nói, cần bắt đầu từ đâu? Dữ liệu chính là yếu tố mấu chốt. Bạn cần dữ liệu nhận dạng tiếng nói để đào tạo các thuật toán học máy của mình.
Tuy nhiên, dữ liệu tiếng nói cũng có nhiều dạng, đặc biệt là khi nói đến tương tác với AI. Dữ liệu thoại được lựa chọn còn phụ thuộc vào loại tương tác mà bạn đang muốn xây dựng. Bài viết dưới đây sẽ gợi ý 03 loại dữ liệu nhận dạng tiếng nói phổ biến nhất. Không dừng lại ở việc giới thiệu, mỗi loại dữ liệu sẽ được phân tích cùng với trường hợp sử dụng và ưu, nhược điểm của chúng.
Dữ liệu nhận dạng tiếng nói là gì?
Thực chất đây là bản ghi âm giọng nói của con người, được sử dụng để đào tạo hệ thống nhận dạng tiếng nói. Dữ liệu âm thanh này thường được kết hợp với bản phiên âm văn bản của hội thoại.
Âm thanh và phiên âm được chuyển đến một thuật toán học máy làm dữ liệu đào tạo. Bằng cách đó, hệ thống học cách xác định âm của một số âm thanh lời nói nhất định và ý nghĩa đằng sau các từ.
Có nhiều nguồn dữ liệu giọng nói sẵn có, bao gồm kho dữ liệu giọng nói công khai hoặc bộ dữ liệu đóng gói sẵn, nhưng trong hầu hết các trường hợp, bạn sẽ cần làm việc với nhà cung cấp dịch vụ dữ liệu để thu thập dữ liệu giọng nói của riêng mình thông qua thu thập từ xa hoặc thu thập trực tiếp. Điều này cho phép bạn tùy chỉnh tập dữ liệu giọng nói của mình theo các biến số như ngôn ngữ, nhân khẩu học của người nói, yêu cầu âm thanh hoặc kích thước bộ dữ liệu.
Phổ dữ liệu giọng nói
Dữ liệu giọng nói tồn tại trên một phổ từ giọng nói không tự nhiên đến tự nhiên.
Giọng nói không tự nhiên có nghĩa là người thu âm đọc trực tiếp từ kịch bản. Người nói bị hạn chế trong nội dung và cách diễn đạt. Đối với dữ liệu này, ta có thể nắm bắt được sự đa dạng trong cách đọc một cụm từ cụ thể.
Đầu còn lại của phổ là trường hợp người nói hoàn toàn tự nhiên và tự do trong cuộc hội thoại. Khi đó, ta không thể đo lường chặt chẽ về phương sai của biến (sự đa dạng trong cách phát âm từ). Tuy nhiên, điều này có lợi thế trong việc phác họa một bức tranh thực tế hơn về lời nói tự nhiên.
Ở giữa phổ là những trường hợp người nói có thể được gợi ý nói chuyện trong một tình huống cụ thể, lời nói của họ không được viết theo kịch bản nhưng vẫn được kiểm soát theo một số cách khác nhau.
Phổ này là tiền đề để phân chia dữ liệu nhận dạng giọng nói thành ba loại lớn:
- Được kiểm soát: Dữ liệu giọng nói theo kịch bản
- Bán kiểm soát: Dữ liệu giọng nói dựa trên tình huống
- Tự nhiên: Dữ liệu giọng nói giao tiếp và không có kịch bản.
Dưới đây là phân tích chi tiết hơn về từng loại dữ liệu này.
1. Dữ liệu giọng nói theo kịch bản
Dữ liệu giọng nói theo kịch bản là dạng dữ liệu giọng nói được kiểm soát nhiều nhất. Ở định dạng này, người nói được yêu cầu ghi lại những lời thoại cụ thể từ một tập lệnh.
Đối với mục đích nhận dạng giọng nói, dữ liệu giọng nói theo tập lệnh thường bao gồm lệnh thoại, lời đánh thức hoặc kết hợp cả hai. Ví dụ, trong trường hợp của trợ lý ảo ViVi trên xe ô tô điện VinFast, một số lệnh có thể là “Hey VinFast, tăng điều hòa thêm 2 độ” hay “Hey VinFast, gọi điện thoại cho mẹ”
Dữ liệu giọng nói theo kịch bản được sử dụng khi các nhà phát triển cần các mẫu giọng nói khác nhau về cách nói, nhằm đảm bảo hệ thống của họ hoạt động tốt cho nhiều cách phát âm.
Loại dữ liệu này có lợi thế là được kiểm soát bởi tính chính xác trong cách dùng từ, do đó, sự khác biệt duy nhất nằm ở cách phát âm từ.
Tuy nhiên, hạn chế của dữ liệu theo kịch bản là bỏ qua sự đa dạng tự nhiên của ngôn ngữ.
2. Dữ liệu giọng nói dựa trên tình huống
Dữ liệu giọng nói dựa trên tình huống là một dạng thu thập ngôn ngữ tự nhiên. Người nói được yêu cầu đưa ra khẩu lệnh của riêng họ dựa trên một tình huống được cung cấp.
Ví dụ, đối với cùng một yêu cầu chỉ đường, trợ lý ảo ViVi trên xe ô tô điện VinFast có thể nhận dạng nhiều cách nói khác nhau như: “chỉ đường đến trạm sạc gần nhất”, “tìm trạm sạc quanh đây”…
Dữ liệu giọng nói dựa trên tình huống được thu thập khi các nhà phát triển cần lấy mẫu tự nhiên về các cách diễn đạt khác nhau với cùng một yêu cầu hoặc khi cần nhiều ý định lệnh hơn (tức là yêu cầu nhiều thứ khác nhau).
Do đó, dữ liệu giọng nói dựa trên tình huống cung cấp sự đa dạng cả về nội dung được nói và cách nói.
Nếu một thiết bị được thiết kế để hiểu giọng nói hàng ngày và tất cả các sắc thái đi kèm với nó, thì bộ dữ liệu dựa trên kịch bản là đặc biệt quan trọng.
Không giống như lời nói theo kịch bản chỉ có thể huấn luyện cho một tập hợp con các lệnh (ví dụ: “Bật”, “Tắt”), dữ liệu dựa trên tình huống có thể giải thích cho tất cả các cách diễn đạt yêu cầu của người dùng.
Hạn chế của dữ liệu tình huống là khả năng xác định phương sai âm thanh giữa các người nói. Và bởi vì có rất nhiều cách có thể diễn đạt cùng một yêu cầu, các bộ dữ liệu này thường có quy mô lớn.
3. Dữ liệu giọng nói tự nhiên
Đây là bản ghi lại cuộc trò chuyện giữa hai hoặc nhiều người nói — với hình thức nói “tự nhiên” nhất, không dựa trên bất kỳ kịch bản nào.
Dữ liệu giọng nói tự nhiên là vô cùng đa dạng trong thực tế. Ví dụ: đây có thể ở dạng bản ghi âm cuộc trò chuyện điện thoại hoặc bản ghi âm những người nói chuyện với nhau trong một căn phòng đông người.
Nếu nhà phát triển đang tìm kiếm dữ liệu xung quanh một chủ đề cụ thể (ví dụ: âm nhạc), hai người nói sẽ được gợi ý trò chuyện về chủ đề đó.
Dữ liệu giọng nói tự nhiên được sử dụng để giúp đào tạo các ứng dụng AI về có khả năng nhận dạng cuộc trò chuyện của nhiều người nói.
Thách thức đầu tiên đối với các chatbot AI đàm thoại và trợ lý ảo là ngữ cảnh trò chuyện. Các ứng dụng này cần hiểu được quy trình của một cuộc trò chuyện tự nhiên, yêu cầu đầu vào bằng giọng nói khác với các lệnh thoại một lần.
Điều này càng trở nên khó khăn hơn bởi thực tế là mọi người sẽ đột ngột chuyển các chủ đề trò chuyện mà không có dấu hiệu trước. Bằng cách nào đó, máy cần tìm hiểu xem cụm từ tiếp theo có phải là một chủ đề mới hoặc liên quan đến điều gì đã được nói trước đó hay không. Dữ liệu giọng nói hội thoại được phiên âm giúp đào tạo những trường hợp này.
Thách thức lớn thứ hai đối với AI lời nói chồng chéo nhau. Khi hai người nói chồng lên nhau, máy phải chọn từng giọng nói, AI vẫn phải hiểu khi nào mỗi người nói đã kết thúc lượt của họ trong cuộc trò chuyện.
Sự hiểu biết về ngữ cảnh hội thoại và cách liên kết câu được cung cấp bởi dữ liệu tự nhiên giúp bổ sung thêm một khía cạnh thực tế hơn cho AI.
Tuy nhiên, hạn chế của dữ liệu này là thiếu cấu trúc tương đối và không thể đoán trước được, do đó, trở nên khó huấn luyện hơn và cần một lượng dữ liệu đáng kể.