VinBigdata chia sẻ 100 giờ dữ liệu tiếng nói cho cộng đồng

Nhằm góp phần xây dựng sân chơi hữu ích cho cộng đồng nghiên cứu về Xử lý ngôn ngữ và tiếng nói ở Việt Nam, Viện Nghiên cứu Dữ liệu lớn VinBigdata đóng góp 100 giờ dữ liệu tiếng nói tiếng Việt, hỗ trợ VLSP tổ chức ASR challenge 2020.

Cụ thể, 100 giờ dữ liệu tiếng nói được thu thập từ các nguồn mở và phiên âm thủ công với độ chính xác 96% do VinBigdata chia sẻ sẽ được dùng làm dữ liệu huấn luyện (training dataset), giúp các đội trẻ phát triển mô hình ASR (Tự động nhận dạng tiếng nói) cho tiếng Việt. Kết quả của mô hình sẽ được đánh giá bởi Word error rate (WER) – thang đo quốc tế đối với hệ thống nhận dạng tiếng nói và dịch máy. Cộng đồng có thể tải bộ dữ liệu ASR tại đây.

ASR challenge nằm trong hội thảo quốc tế thường niên của cộng đồng VLSP (Vietnamese Language and Speech Processing). Năm nay, VLSP 2020 dự kiến được tổ chức trong tháng 12 tại Hà Nội. Kể từ năm 2012, cộng đồng VLSP đã có các hoạt động thường niên nhằm cùng nhau chia sẻ các kết quả nghiên cứu ứng dụng và các công cụ, tài nguyên trong lĩnh vực xử lí ngôn ngữ, đồng thời xây dựng kế hoạch phát triển cộng đồng. Các hội thảo thường niên thu hút hàng trăm người tham gia, gần 5000 thành viên gia nhập diễn đàn Facebook của cộng đồng VLSP.

Bên cạnh bộ dữ liệu dành cho ASR, VinBigdata cũng chia sẻ 01 bộ dữ liệu dành cho Dịch máy (Machine Translation) từ tiếng Anh sang tiếng Việt trong domain NEWS. Dữ liệu đào tạo bao gồm hai bộ ngữ liệu: Ngữ liệu song ngữ và ngữ liệu đơn ngữ. Ngữ liệu song ngữ gồm tập dữ liệu trong domain NEWS (kích thước 20,000 mẫu với 80% trong tập đào tạo, 10% trong tập phát triển và 10% trong tập thử nghiệm); và các tập dữ liệu ngoài miền domain (kích thước khoảng 4 triệu mẫu, chẳng hạn như openSub (3.5M), ted-like (55k), evbcorpus (45k), wiki-alt (20k) và tập dữ liệu cơ bản (8.8k)). Kho ngữ liệu đơn ngữ ở định dạng UTF-8 và bao gồm 2 triệu mẫu thu thập từ dữ liệu web tiếng Việt.

Tải bộ ngữ liệu song ngữ tại đây.

Tải bộ dữ liệu đơn ngữ tại đây.

Tin liên quan

    Cảm ơn bạn đã quan tâm và ủng hộ.

    File hiện tại không thể tải xuống
    Vui lòng liên hệ hỗ trợ.

    VinOCR eKYC
    Chọn ảnh từ máy của bạn

    Chọn ảnh demo dưới đây hoặc tải ảnh lên từ máy của bạn

    Tải lên ảnh CMND/CCCD/Hộ chiếu,...

    your image
    Chọn ảnh khác
    Tiến hành xử lý
    Thông tin đã được xử lý
    Mức độ tin cậy: 0%
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    Xác thực thông tin thẻ CMND/CCCD

    Vui lòng sử dụng giấy tờ thật. Hãy đảm bảo ảnh chụp không bị mờ hoặc bóng, thông tin hiển thị rõ ràng, dễ đọc.

    your image
    Chọn ảnh khác

    Ảnh mặt trước CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh mặt sau CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh chân dung

    This site is registered on wpml.org as a development site.