Điều gì khiến bạn là một cá thể độc nhất? Đó có phải là di truyền, đặc điểm thể chất, tính cách, thái độ, quan điểm, trải nghiệm độc đáo mà chúng ta có? Câu trả lời nằm ở tất cả những yếu tố trên. Dễ thấy, xét về đặc điểm thể chất, dấu vân tay là đặc điểm nhận dạng riêng có của mỗi người. Và giọng nói cũng như vậy.
Đường thở, khoang mô mềm, hình dạng, chuyển động của miệng và hàm ảnh hưởng đến cách nói. Sau đó, các mẫu giọng nói có thể được mô hình hóa thành một “dấu giọng nói” (voiceprint) độc đáo. Giống như dấu vân tay hoặc mống mắt của bạn, giọng nói đó là duy nhất của bạn. Do vậy, cùng với các công nghệ nhận dạng khuôn mặt, mở khóa bằng vân tay, thì sinh trắc giọng nói (voice biometrics) cũng đang được biết đến là công nghệ tiên tiến phục vụ các bài toán về xác thực, bảo mật,…
Công nghệ Voice biometrics là gì?
Sinh trắc giọng nói (voice biometrics) là công nghệ sử dụng các đặc điểm độc đáo của giọng nói con người để nhận dạng người nói, xác thực và phân tích giọng nói.
Tại sao giọng nói của mỗi người là duy nhất? Là sóng áp suất có thể nghe được (thường do rung động của vật thể rắn gây ra), âm thanh truyền trong không khí và biến đổi khi va chạm với chướng ngại vật.
Trong trường hợp giọng nói của con người, sóng này được tạo ra khi không khí đi từ phổi qua các nếp gấp thanh âm (dây thanh quản), khiến chúng rung động. Sau đó, sóng được điều biến thêm trong đường phát âm bởi các cơ thanh quản (thường được gọi là hộp thoại) và các khớp nối – lưỡi, vòm miệng, má, lợi, răng, môi, v.v.
Mỗi giọng nói của con người là duy nhất do hình dạng và kích thước riêng của các cơ quan phát âm và cách chúng được sử dụng. Ví dụ, phụ nữ và trẻ em thường có thanh quản nhỏ hơn và dây thanh âm ngắn hơn – đó là lý do tại sao giọng của họ thường cao hơn.
Chuyển động của các cơ quan phát âm cũng rất độc đáo – hầu hết chúng được học từ thời thơ ấu và phản ánh cách nói của từng cá nhân. Đây là bản chất của sinh trắc giọng nói: Nếu tần số và động lực phát triển của sóng âm thanh do cơ quan phát âm của con người tạo ra có thể được phân tích và biểu diễn dưới dạng toán học, thì biểu diễn này cũng sẽ là duy nhất, giúp xác định được người nói.
Mô hình toán học của giọng nói con người được gọi là voiceprint. Voiceprints có thể được lưu trữ và so sánh với các voiceprints khác. Việc so sánh các dấu giọng nói cho phép xác định một người bằng giọng nói, thực hiện phân tích giọng nói pháp y và thậm chí xác định các đặc điểm sinh học bổ sung như giới tính của một người hoặc ước tính nhóm tuổi của người đó(ở một mức độ nhất định).
Các công nghệ sinh trắc giọng nói tiên tiến nhất hiện nay là ngôn ngữ, văn bản, trọng âm và kênh độc lập (channel-independent). Nhờ trí tuệ nhân tạo (AI), các công nghệ sinh trắc học bằng giọng nói đã đạt được độ chính xác và hiệu quả cao, chỉ mất vài giây để xác thực một người qua giọng nói của họ.
Ứng dụng của sinh trắc giọng nói
Tính chính xác, hiệu quả và liền mạch đã giúp đưa công nghệ sinh trắc học giọng nói ứng dụng sâu rộng trong nhiều ngành nghề, lĩnh vực khác nhau.
- Đối với các ngân hàng, công ty tài chính bán lẻ, viễn thông, bảo hiểm và đa tiện ích khác: Bổ sung thêm một lớp bảo mật; Xác minh sinh trắc học bằng giọng nói của nhân viên từ xa; Trải nghiệm khách hàng được cải thiện (CX); Phát hiện mạo danh hoặc gian lận khi đăng ký; Xác thực bằng giọng nói không cần mật khẩu
- Đối với cơ quan thực thi pháp luật: Nhận dạng người nói; Tìm kiếm diễn giả trong một số lượng lớn các bản ghi âm; Ngăn chặn cuộc gọi khẩn cấp giả mạo; Xác định giới tính; Ước tính nhóm tuổi; Ước tính chiều cao; Trực quan hóa khuôn mặt
- Đối với lĩnh vực pháp y: So sánh giọng nói pháp y tự động; Phân tích giọng nói chính xác trong thời gian ngắn
- Đối với cuộc sống hàng ngày: Đặt hàng dịch vụ và hàng hóa an toàn thông qua trợ lý giọng nói; Giao diện giọng nói được cá nhân hóa trong ô tô và nhà thông minh
Công nghệ sinh trắc giọng nói hoạt động như thế nào?
Quá trình nhận dạng sinh trắc giọng nói bao gồm hai bước:
- Trích xuất giọng nói (Voiceprint extraction) – một hệ thống sinh trắc giọng nói sẽ phân tích một mẫu giọng nói và tạo ra mô hình toán học về giọng nói của người đó (voiceprint). Nếu hệ thống phân tích giọng nói của người đó lần đầu tiên, thì giai đoạn này còn được gọi là đăng ký giọng nói (voice enrollment).
- So sánh giọng nói – giọng nói trích xuất được so sánh với các giọng nói được lưu trữ khác để tìm ra sự trùng khớp cần thiết nhằm xác minh người nói hoặc nhận dạng người nói thành công.
Trong hai bước này, trích xuất giọng nói tốn nhiều thời gian hơn trong khi so sánh giọng nói rất nhanh – hàng triệu lượt so sánh giọng nói có thể được thực hiện trong một giây.
Trích xuất giọng nói
Giọng nói được trích xuất như thế nào? Sóng âm có thể được mô tả như một dạng sóng
Hoặc được biểu thị bằng một quang phổ:
Quang phổ cung cấp phân tích chi tiết hơn về sóng âm – trục dọc biểu thị tần số, trục ngang biểu thị thời gian và độ sáng mô tả biên độ của sóng.
Dựa trên phân tích quang phổ, hệ thống sinh trắc giọng nói sẽ phân tích các đặc điểm và động lực học của sóng âm mà người đó tạo ra (giọng nói) và xây dựng một mô hình toán học (thường là một tập hợp các số dấu phẩy động) thể hiện các đặc điểm độc đáo trong giọng nói của người đó.
Các phương pháp thống kê và AI được sử dụng để tìm ra tập hợp số phù hợp nhằm biểu thị hình dạng, kích thước và chuyển động của các cơ quan phát âm của người đó. Mô hình toán học của giọng nói này được gọi là voiceprint.
Khi giọng nói của một người được tạo lần đầu tiên (đăng ký giọng nói), một vài chục giây giọng nói của người đó thường được yêu cầu để tạo dữ liệu giọng nói phục vụ mục đích so sánh giọng nói trong tương lai.
Trích xuất giọng nói có thể ở dạng chủ động hoặc bị động:
- Trích xuất giọng nói chủ động có nghĩa là người nói đang tích cực tham gia vào quá trình xác minh, thường lặp lại một cụm từ hoặc chuỗi từ cụ thể do hệ thống trình bày.
- Mặt khác, trích xuất giọng nói bị động sẽ trích xuất giọng nói của một người một cách liền mạch trong cuộc trò chuyện tự nhiên mà không cần bất kỳ nỗ lực có ý thức nào từ người đó.
Voiceprint sau đó được lưu trữ trong cơ sở dữ liệu ở một định dạng cụ thể dành riêng cho từng công ty sinh trắc giọng nói. Vì lý do đó, voiceprint không tương thích với các hệ thống sinh trắc giọng nói (nhà cung cấp) khác. Ngoài ra, cũng không thể tạo lại giọng nói gốc từ bản ghi giọng nói. Do đó, nội dung của lời nói sẽ luôn được ẩn danh.
So sánh giọng nói
Sau khi giọng nói được lưu trữ trong cơ sở dữ liệu, nó có thể được so sánh ngay lập tức với bất kỳ giọng nói nào khác được trích xuất chỉ từ một vài giây lời nói.
Voiceprints có thể được so sánh theo cách:
- Trực tiếp (1:1) để xác minh người nói và phân tích giọng nói pháp y
- Một-nhiều (1:N) để nhận dạng người nói, tìm kiếm người nói và phát hiện người nói
- Nhiều-nhiều (N:M) để phân cụm người nói (cũng như để nhận dạng người nói, tìm kiếm người nói và phát hiện người nói)
Kết quả của mỗi lần so sánh giọng nói được trình bày dưới dạng điểm số phản ánh xác suất hai giọng nói trùng khớp (người nói đã được xác minh) hoặc giọng nói khớp với một trong những giọng nói được lưu trữ.
Điểm số là một hàm của tỷ lệ giữa hai xác suất: xác suất hai voiceprint ước tính thuộc về cùng một người và xác suất chúng thuộc về những người khác nhau:
Việc một người nói có được xác minh (hoặc xác định) hay không tùy thuộc vào ngưỡng chấp nhận điểm số, ngưỡng này có thể được đặt riêng cho bất kỳ trường hợp sử dụng cụ thể nào.
Sinh trắc giọng nói chính xác đến mức nào?
Có hai loại lỗi có thể xảy ra trong quá trình xác thực sinh trắc bằng giọng nói – Chấp nhận sai (FA) và Từ chối sai (FR).
Nói cách khác, sau khi so sánh hai giọng nói, hệ thống sinh trắc giọng nói có thể:
- Chấp nhận sai một người nói (kẻ mạo danh, kẻ lừa đảo, v.v.) là người dùng hợp lệ (FA)
- Từ chối sai người dùng hợp lệ (FR)
Tùy thuộc vào trường hợp sử dụng, hệ thống sinh trắc giọng nói có thể được tinh chỉnh (bằng cách chọn một giá trị thích hợp của ngưỡng điểm mà trên đó một người được xác minh hoặc nhận dạng) để trở nên an toàn hơn – có Tỷ lệ chấp nhận sai (FAR) hoặc Tỷ lệ từ chối sai (FRR) thấp hơn.
Sự phụ thuộc giữa FAR và FRR được mô tả bằng đường cong Detection Effect Tradeoff (DET) (đường màu đỏ trong biểu đồ bên dưới):
Như có thể suy ra từ biểu đồ trên, FAR và FRR của hệ thống sinh trắc giọng nói phụ thuộc lẫn nhau.
Nếu bạn tăng ngưỡng chấp nhận điểm, thì FAR sẽ giảm và tương ứng là FRR tăng – điều này có thể hữu ích nếu bạn cần mức độ bảo mật cao.
Ngược lại, đối với cảnh sát hoặc các cơ quan thực thi pháp luật, bất kỳ người nói đáng ngờ nào cũng có thể quan trọng. Do đó, việc giảm ngưỡng chấp nhận điểm có thể giúp phát hiện tội phạm. Kết quả là FAR tăng nhưng FRR giảm, điều này có thể giúp bắt được tên tội phạm quan trọng.
Điểm mà tại đó hệ thống tạo ra số lần chấp nhận sai và số lần từ chối sai bằng nhau được gọi là Tỷ lệ lỗi bằng nhau (EER). Giá trị phần trăm này thường được sử dụng để đánh giá tổng thể độ chính xác của hệ thống sinh trắc giọng nói.
Độ chính xác của các giải pháp sinh trắc bằng giọng nói có thể được nâng cao hơn nữa thông qua các hiệu chuẩn có tính đến FAR cần thiết (giữ nó ở mức thấp trong khi đảm bảo FRR nằm trong phạm vi chấp nhận được để mang lại sự cân bằng tốt giữa bảo mật và trải nghiệm của khách hàng) và cũng xem xét các đặc điểm độc đáo của kênh thoại và ngôn ngữ.
Sinh trắc giọng nói an toàn đến mức nào?
Có ba loại xác thực cơ bản dựa trên:
- Thứ bạn sở hữu (ví dụ: thẻ ID, chìa khóa, mã thông báo bảo mật)
- Thứ bạn biết (ví dụ: mật khẩu, câu hỏi bảo mật, mã PIN)
- Thứ thuộc về bạn (ví dụ: dấu vân tay, giọng nói, khuôn mặt, mống mắt)
Thẻ, mã thông báo và chìa khóa có thể bị mất và bị làm giả. Mật khẩu và thông tin bí mật có thể lấy được thông qua vi phạm dữ liệu. Nhưng thật khó để làm sai lệch thông tin sinh trắc học của một người.
Và điều này đặc biệt đúng đối với xác minh sinh trắc học giọng nói hiện đại có thể xác minh giọng nói của một người liên tục (bất kể ngôn ngữ và từ ngữ được nói) trong toàn bộ cuộc trò chuyện.
Hơn nữa, theo Quy định chung về bảo vệ dữ liệu (GDPR) của EU, giọng nói được coi là thông tin cá nhân nhạy cảm và cần được xử lý bằng các biện pháp bảo mật bổ sung (được chấp nhận rộng rãi ngay cả bên ngoài EU).
Vì giọng nói được lưu vào cơ sở dữ liệu giọng nói ở định dạng cụ thể dành riêng cho từng nhà cung cấp sinh trắc học giọng nói, chúng không tương thích với các hệ thống sinh trắc học giọng nói khác. Cũng không thể tạo lại giọng nói gốc hoặc giọng nói của người đó từ giọng nói đã lưu (không thể đảo ngược thiết kế).
Cách giọng nói được tạo ra hỗ trợ một cách tự nhiên các yêu cầu bảo mật dữ liệu do GDPR và các chính sách bảo mật dữ liệu tương tự khác nêu ra.
Sinh trắc học bằng giọng nói là một phương pháp xác thực an toàn giúp cải thiện tính bảo mật và đồng thời tăng trải nghiệm của khách hàng.
Ưu điểm của việc sử dụng sinh trắc giọng nói
Giọng nói của con người là một phần tự nhiên của mọi cuộc trò chuyện bằng lời nói và do đó, luôn có sẵn để xác minh sinh trắc học giọng nói.
Công nghệ sinh trắc học giọng nói cập nhật (dựa trên hàng trăm đặc điểm giọng nói bị ảnh hưởng bởi sinh lý học và chuyển động độc đáo của đường phát âm của con người) có thể xác định (xác thực) một người bằng giọng nói một cách liền mạch và an toàn.
Điều này đặc biệt hữu ích cho các trung tâm cuộc gọi của ngân hàng, tài chính bán lẻ, công ty viễn thông, bảo hiểm và tiện ích, cũng như cho nhà thông minh, trợ lý giọng nói, tổ chức chính phủ và ngành chăm sóc sức khỏe.
Xác thực bằng giọng nói là phương pháp xác thực dễ dàng và an toàn hơn so với xác thực dựa trên kiến thức – khách hàng không phải chia sẻ hoặc giữ bất kỳ thông tin bí mật nào có thể bị đánh cắp hoặc tấn công.
Xác thực sinh trắc học bằng giọng nói thụ động cho phép nhận dạng chính xác giọng nói của một người ngay cả sau vài giây trò chuyện tự nhiên với tổng đài viên (và trong toàn bộ cuộc trò chuyện, nếu cần).
Khách hàng có thể truy cập tài khoản của họ một cách liền mạch và an toàn đồng thời trải nghiệm của họ cũng được nâng cao đáng kể.
Sinh trắc học giọng nói khiến những kẻ lừa đảo khó thực hiện hành vi gian lận hoặc mạo danh – nó có thể tự động phát hiện những kẻ lừa đảo dựa trên giọng nói.
Là một phương thức xác thực, công nghệ sinh trắc giọng nói giúp giảm đáng kể thời gian xác thực, rút ngắn hơn 30 giây cho mỗi cuộc gọi trung bình. Thay vào đó, một đại lý có thể sử dụng thời gian này để giải quyết yêu cầu của khách hàng. Điều này cải thiện trải nghiệm của khách hàng, tiết kiệm chi phí của công ty và tăng doanh thu.
Sinh trắc giọng nói cũng là một lợi thế lớn cho các cơ quan thực thi pháp luật và các nhà điều tra. Bất cứ khi nào có nhu cầu xác định và tìm kiếm giọng nói của một người trong một lượng lớn âm thanh, công nghệ sinh trắc giọng nói có thể thực hiện việc này một cách hiệu quả và tự động trong thời gian thực (điều tra viên không cần phải nghe thủ công từng bản ghi âm). Các chuyên gia pháp y sử dụng công nghệ sinh trắc học giọng nói tiên tiến để so sánh giọng nói pháp y tự động hiệu quả nhằm cung cấp phân tích giọng nói pháp y nhanh chóng và không thiên vị.
Cuối cùng nhưng không kém phần quan trọng, công nghệ sinh trắc học giọng nói tôn trọng quyền riêng tư của khách hàng vì nó so sánh giọng nói bằng cách sử dụng bản ghi giọng nói mà bản ghi âm gốc (cũng như lời nói và giọng nói) không thể được tái tạo.
Những đặc điểm vật lý nào có thể được xác định bằng sinh trắc học giọng nói?
Các đặc điểm của giọng nói con người phụ thuộc vào kích thước và hình dạng của đường phát âm (dây thanh âm, thanh quản, bộ phận phát âm, v.v.) cũng như cách nói của người đó – ngôn ngữ mẹ đẻ, trọng âm và một số đặc điểm giọng nói khác được học trong tuổi thơ.
- Giới tính của người nói
Ví dụ, dây thanh âm càng dài và dày thì giọng nói càng trầm. Các hệ thống sinh trắc học giọng nói hiện đại do AI cung cấp có thể học cách phân biệt giữa giọng nữ và giọng nam với độ chính xác tuyệt vời.
Nhận dạng giới tính sinh trắc bằng giọng nói có thể rất hữu ích cho việc cá nhân hóa các cuộc gọi bằng trợ lý giọng nói (voicebot), để tự động phân loại các cuộc gọi trong trung tâm liên lạc hoặc để lọc nhanh dữ liệu âm thanh dựa trên giới tính của người nói.
- Ước tính nhóm tuổi của người nói
Dựa trên các đặc điểm vật lý của dây thanh quản và những thay đổi trong cơ quan phát âm xảy ra trong quá trình lão hóa, hệ thống sinh trắc học giọng nói có thể ước tính nhóm tuổi của một cá nhân ở một mức độ nhất định.
Mặc dù các công nghệ ước tính tuổi hiện tại chưa đạt đến độ chính xác, có thể ước tính tuổi của một người trong phạm vi chỉ vài năm, nhưng chúng vẫn có thể được sử dụng như một công nghệ sinh trắc học giọng nói hỗ trợ. Ví dụ: tự động phát hiện khi một người lớn tuổi đang nói chuyện với trợ lý ảo và thay đổi tốc độ cũng như phong cách trò chuyện để giúp cuộc trò chuyện trở nên thoải mái hơn với người đó.
- Hình dung khuôn mặt của người nói
Công nghệ sinh trắc học giọng nói không chỉ có thể ước tính các đặc điểm cá nhân rõ ràng như giới tính và tuổi tác. Đáng ngạc nhiên là các thuật toán học sâu có thể tái tạo lại khuôn mặt của một người chỉ bằng một đoạn ghi âm ngắn.
Công nghệ này dựa trên mối liên hệ chặt chẽ giữa giọng nói và ngoại hình: cả hai đều tương quan với tuổi tác, giới tính, hình dạng của cơ quan phát âm, cấu trúc xương mặt và các đặc điểm sinh lý khác.
- Chiều cao của người nói
Sinh trắc học giọng nói cũng có thể ước tính chiều cao của một người. Tương tự như ước tính giới tính và độ tuổi, mạng lưới thần kinh sâu có thể phân tích giọng nói để tìm các mẫu tương quan với chiều cao cơ thể.