Phương pháp tổng hợp tiếng nói – Nâng tầm giao tiếp và trải nghiệm người dùng

1. Tổng hợp tiếng nói là gì ?

Tổng hợp tiếng nói (TTS) là quá trình tạo ra tiếng nói từ văn bản. Trong đời sống, phương pháp tổng hợp tiếng nói có nhiều ứng dụng phong phú, từ trợ lý ảo, đài phát thanh, sách nói đến các ứng dụng giáo dục và y tế. Bài viết dưới đây sẽ giới thiệu 3 phương pháp tổng hợp tiếng nói phổ biến hiện nay và những ứng dụng cụ thể của công nghệ này

2. 3 phương pháp tổng hợp tiếng nói chính

Hiểu một cách đơn giản, tổng hợp tiếng nói hay chuyển văn bản thành giọng nói (Tex-to Speech) là quá trình mô phỏng nhân tạo giọng nói con người nhờ một đoạn văn bản đầu vào. Hiện nay trên thị trường có 3 phương pháp tổng hợp tiếng nói chính như sau: 

2.1. Phương pháp tổng hợp tần số Formant

Không sử dụng giọng nói thật khi chạy, tiếng nói được phương pháp tổng hợp tần số Format tạo ra bởi mô hình tuyến âm. Mô hình này mô phỏng hiện tượng cộng hưởng các cơ quan phát âm bằng một tập hợp các bộ lọc. Các bộ lọc này được gọi là các bộ lọc cộng hưởng Formant.

Tổng hợp tiếng nói theo mô hình tổng hợp tần số Formant nội tiếp
Mô hình phương pháp tổng hợp tần số Formant nối tiếp

Nhiều hệ thống dựa trên phương pháp tổng hợp tần số Formant tạo ra giọng nói nhân tạo gần giống giọng rôbốt, không tự nhiên. Tuy nhiên, tùy vào mục đích sử dụng mà độ tự nhiên cao có phải là mục tiêu của người sử dụng hệ thống không. Tuy không đáp ứng yêu cầu về giọng nói tự nhiên, hệ thống này có rất nhiều ưu điểm đáng lưu tâm như: Giọng nói khá dễ nghe, ngay cả ở tốc độ cao, không có tiếng cọ xát do ghép âm tạo ra, các hệ thống này cũng nhỏ gọn hơn các hệ thống ghép nối âm,…

2.2. Phương pháp tổng hợp mô phỏng hệ thống phát âm

Tổng hợp mô phỏng hệ thống phát âm là các kỹ thuật tổng hợp giọng nói dựa trên mô hình máy tính mô phỏng cơ quan phát âm của con người và quá trình tạo ra tiếng nói đó. Đây được xem là phương pháp cơ bản nhất để tổng hợp tiếng nói, nhưng khó có thể tổng hợp được tiếng nói chất lượng cao do những hạn chế trong vấn đề mô phỏng các tham số tiếng nói và năng lực tính toán. 

 Đây là phương đầu tiên được sử dụng để tổng hợp tiếng nói trên thế giới. Hệ thống tổng hợp mô phỏng phát âm đầu tiên là ASY, thường được dùng cho các thí nghiệm trong nghiên cứu, được phát triển ở phòng thí nghiệm Haskins vào giữa những năm 1970 bởi Philip Rubin, Tom Baer, và Paul Mermelstein.

2.3. Phương pháp tổng hợp ghép nối

Phương pháp tổng hợp ghép nối là phương pháp tương đối mới, còn được gọi là phương pháp lựa chọn đơn vị âm. Phương pháp này hoạt động trên cơ chế kết hợp (ghép nối) các mẫu tiếng nói tự nhiên đã thu âm sẵn lại để tạo ra một câu nói. Một số những đơn vị âm (unit) phổ biến gồm: âm vị, âm tiết, bán âm tiết, âm đôi, âm ba, từ, cụm từ,…

Tổng hợp tiếng nói theo mô hình ghép nối đơn vị âm
Mô hình miêu tả quá trình ghép nối đơn vị âm

Có thể dễ nhận thấy, phương pháp này có khả năng tổng hợp tiếng nói với mức độ dễ hiểu, tự nhiên cao, bởi trong tự nhiên tiếng nói vốn đã được lưu trữ trong các đơn vị âm. Tuy nhiên, sự gián đoạn giữa các điểm ghép nối có thể khiến cho âm thanh biến dạng dù đã sử dụng biện pháp và thuật toán làm trơn tín hiệu tại điểm ghép nối. 

3. Công nghệ ứng dụng các phương pháp tổng hợp tiếng nói

Tổng hợp tiếng nói có nhiều ứng dụng trong đời sống, giúp công việc, học tập và sinh hoạt giải trí của người dùng được nâng cấp, tạo ra nhiều ảnh hưởng tích cực cho xã hội nói chung. Dưới đây là những ứng dụng điểm hình của các phương pháp tổng hợp tiếng nói. 

3.1. Trợ lý ảo 

Hàng loạt các trợ lý ảo tiên tiến nhất hiện nay như Siri, Alexa, ViVi hay Google Assistant đều sử dụng tổng hợp tiếng nói để giao tiếp với người dùng. Ví dụ, với trợ lý ảo ViVi trên xe ô tô điện VinFast, sau khi nhận yêu cầu từ người dùng, trợ lý ảo này sẽ nhanh chóng tiến hành nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên để xác định yêu cầu cụ thể. Sau đó, từ nguồn Dữ liệu lớn được tích hợp, trợ lý ảo này sẽ tổng hợp kiến thức thành câu trả lời dưới dạng văn bản rồi chuyển chúng thành giọng nói. 

Mô hình trợ lý ảo Vivi
Mô hình hoạt động của trợ lý ảo ViVi

Nhờ vào công nghệ lõi tổng hợp tiếng nói (Text-to-speech) được phát triển bởi đội ngũ kĩ sư hàng đầu Việt Nam tại VinBigdata, ViVi có thể tổng hợp được đến 4 giọng đàm thoại tự nhiên (Nam – Nữ miền Bắc và Nam) với tốc độ phản hồi dưới 1s. Vào ngày 28/04/2023, sản phẩm trợ lý ảo ViVi đã được vinh danh là Giải pháp xuất sắc của ngành phần mềm, CNTT Việt Nam trong lĩnh vực Các dịch vụ, giải pháp công nghệ tiên phong tại Lễ trao giải Sao Khuê 2023. 

→ Khám phá trợ lý ảo ViVi tại đây!

3.2. Callbot

Bên cạnh trợ lý ảo, một trong những ứng dụng nổi bật đang dần trở nên phổ biến của phương pháp tổng hợp tiếng nói là Callbot. Hiện nay, nhiều doanh nghiệp đã bắt đầu ứng dụng Callbot vào tổng đài ảo của doanh nghiệp mình nhằm tối ưu quy trình chăm sóc khách hàng.

Callbot tổng đài chăm sóc khách hàng ViVoice
Quy trình callbot tổng hợp tiếng nói

Dựa trên hệ cơ sở dữ liệu lớn và lõi công nghệ tổng hợp tiếng nói, tổng đài của các doanh nghiệp sau khi tích hợp Callbot có thể tự động tổng hợp thông tin dưới dạng văn bản và chuyển thành giọng nói. Nhờ vậy mà khách hàng sẽ được tiếp đón suốt 24/7 mà không cần sự can thiệp của con người. 

Theo khảo sát từ VinBigdata, các khách hàng sử dụng phần mềm VinBase Callbot của công ty đã tăng được đến 10% tỷ lệ hài lòng của khách hàng, đồng thời giảm tới 40% (~2,4 phút) thời gian trung bình xử lý cuộc gọi (AHT). 

>>> Tìm hiểu thêm về VinBase Callbot tại đây!

3.3. Phần mềm tổng hợp tiếng nói

Với khối lượng tin tức và công việc lớn như hiện nay, nhiều đài phát thanh và truyền hình trên thế giới đã ứng dụng công nghệ tổng hợp tiếng nói để sản xuất các bản ghi âm tin tức. Bên cạnh đó, podcast bùng nổ trong những năm gần đây đã tạo ra nhu cầu sử dụng các phần mềm tổng hợp tiếng nói cho các nhà sáng tạo nội dung. 

Phần mềm tổng hợp tiếng nói
Các phần mềm tổng hợp tiếng nói trên thị trường

Các phần mềm tổng hợp tiếng nói phổ biến nhất Google Text-to-Speech, Voice Aloud Reader, Narrator’s Voice hay Talk FEEE vốn là những phần mềm được nhiều cá nhân ưa chuộng. 

Đối với các doanh nghiệp lớn, yêu cầu sử dụng nhiều loại giọng nói cho các TVC hay video hướng dẫn sử dụng cũng được đặt ra. Để tiết kiệm chi phí và chủ động trong quá trình chỉnh sửa đoạn ghi âm, doanh nghiệp có thể phát triển một phần mềm tổng hợp tiếng nói thông minh để tạo ra bản ghi cần thiết. Tuy nhiên, việc phát triển phần mềm này cũng đòi hỏi một đội ngũ kĩ sư giỏi, cùng thời gian phát triển lâu dài. 

Để khắc phục điều này, VinBigdata hiện đang cung cấp VinBase API TTS (Tổng hợp tiếng nói) nhằm hỗ trợ doanh nghiệp đẩy nhanh quá trình phát triển phần mềm và tiết kiệm nguồn nhân lực. Bên cạnh cung cấp lõi công nghệ, VinBigdata còn có đội ngũ tư vấn viên giàu kinh nghiệm, hoạt động liên tục 24/7 nhằm tối ưu hóa trải nghiệm khách hàng. 

>>> Bạn đọc quan tâm tìm hiểu về VinBase API TTS tại đây!

4. Xu hướng ứng dụng phương pháp tổng hợp tiếng nói

Tổng hợp tiếng nói là một công nghệ có nhiều tiềm năng phát triển. Với sự phát triển của AI, tổng hợp tiếng nói sẽ trở nên tự nhiên và sinh động hơn, mở ra nhiều ứng dụng mới trong đời sống. Đặc biệt, nền công nghiệp giọng nói trên thế giới bị ảnh hưởng vô cùng sâu sắc bởi công nghệ này. Ngày càng nhiều doanh nghiệp lựa chọn giọng nói được sản xuất từ phần mềm thay vì tốn thời gian thuê diễn viên giọng nói. Điều này đòi hỏi nhân sự trong ngành này cần có những thay đổi nhanh chóng để bắt kịp thay đổi của thị trường. 

Tuy nhiên, khó khăn của diễn viên giọng nói lại là lợi thế của các doanh nghiệp khi nhanh chóng tận dung được tiến bộ khoa học để cắt giảm chi phí, tối đa doanh thu. Thị trường trò chơi, giải trí, giáo dục…sẽ sớm được ứng dụng đến 100% công nghệ vào quá trình sản xuất. 

  • Trong lĩnh vực giáo dục: Các khóa học trực tuyến và sách nói hiện đều được ứng dụng phương pháp tổng hợp tiếng nói để tạo ra nhiều bản ghi âm với chi phí tối ưu. Điều này cũng góp phần gia tăng cơ hội học tập, tiếp cận tri thức cho những người có hoàn cảnh khó khăn, người yếu thế trong xã hội bởi nguồn kiến thức miễn phí phát triển mạnh mẽ trong thời đại số ngày nay. 

    Sách nói trong giảng dạy
    Chi phí sản xuất sách nói giảm gia tăng cơ hội tiếp cận thông tin của người khiếm thị
  • Trong lĩnh vực y tế: Việc phân tích các báo cáo y khoa và thông báo trực tiếp cho bệnh nhân cũng được tự động hóa nhờ công nghệ AI. Sau khi phân tích và đưa ra kết luận y khoa, văn bản được chuyển thành giọng nói nhờ phương pháp tổng hợp tiếng nói để gửi bản ghi âm đến bệnh nhân. Điều này vừa giúp giảm áp lực làm việc cho bác sĩ, vừa giúp bệnh nhân lưu trữ và ghi nhớ thông tin dễ dàng hơn. 
  • Trong lĩnh vực vận tải: Nhiều doanh nghiệp vận tải đã nhanh chóng ứng dụng phương pháp tổng hợp tiếng nói vào tổng đài chăm sóc khách hàng của mình. Ví dụ, với tổng đài chăm sóc khách hàng AI, sau khi nhận diện ngôn ngữ tự nhiên của khách hàng, tổng đài sẽ truy xuất nguồn thông tin từ bộ nhớ nội bộ dưới dạng văn bản, từ đó tổng hợp thành tiếng nói để trả về kết quả cho khách hàng trong thời gian ngắn nhất, suốt 24/7 mà không cần sự can thiệp của con người. 
Ứng dụng tổng hợp giọng nói trong quy trình chăm sóc khách hàng
Tổng đài AI tối ưu hóa hoạt động chăm sóc khách hàng

Bên cạnh 3 lĩnh vực trên, nhiều lĩnh vực khác cũng đã nhanh chóng bắt kịp với sự phát triển công nghệ cuảt thế giới để giải quyết các bài toán trong doan nghiệp. 

Tổng kết

Trên đây là 3 phương pháp tổng hợp tiếng nói phổ biển cùng những ứng dụng của phương pháp này trong cuộc sống hàng ngày của chúng ta. Hy vọng bài viết đã cung cấp nhiều thông tin bổ ích cho bạn đọc. Để hiểu rõ hơn về tính năng đặc biệt của công nghệ lõi này khi ứng dụng vào các sản phẩm công nghệ của doanh nghiệp bạn. Bạn đọc có thể liên hệ VinBigdata tư vấn theo thông tin dưới đây!

Bình luận

Địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu

Bài viết liên quan

    Cảm ơn bạn đã quan tâm và ủng hộ.

    File hiện tại không thể tải xuống
    Vui lòng liên hệ hỗ trợ.

    VinOCR eKYC
    Chọn ảnh từ máy của bạn

    Chọn ảnh demo dưới đây hoặc tải ảnh lên từ máy của bạn

    Tải lên ảnh CMND/CCCD/Hộ chiếu,...

    your image
    Chọn ảnh khác
    Tiến hành xử lý
    Thông tin đã được xử lý
    Mức độ tin cậy: 0%
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    Xác thực thông tin thẻ CMND/CCCD

    Vui lòng sử dụng giấy tờ thật. Hãy đảm bảo ảnh chụp không bị mờ hoặc bóng, thông tin hiển thị rõ ràng, dễ đọc.

    your image
    Chọn ảnh khác

    Ảnh mặt trước CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh mặt sau CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh chân dung

    This site is registered on wpml.org as a development site.