Các AI Text-to-speech đang ngày càng thông minh hơn, có khả năng nói tiếng người giống hơn từ một văn bản có sẵn. Tuy nhiên có một vấn đề là các AI này cần rất nhiều thời gian đào tạo, data dữ liệu lớn để có thể tạo ra một giọng nói dễ nghe.
Chính vì thế các nhà khoa học của Microsoft và Trung Quốc đã đưa ra một thuật toán mới, nhằm giúp xây dựng các AI nói trong tương lai hiệu quả hơn.
Nhóm nghiên cứu đã tạo ra một text-to-speech AI có thể nói mà chỉ cần 200 mẫu giọng nói (khoảng 20 phút thu âm) và phiên âm phù hợp.
AI mới này dựa một phần vào nguyên lý hoạt động gọi là Transformers, hay mạng lưới thần kinh sâu mô phỏng các tế bào thần kinh trong não người. Transformers "nặng" các thông tin đầu vào và đầu ra một cách nhanh chóng như liên kết khớp thần kinh, giúp họ xử lý chuỗi thậm chí kéo dài rất hiệu quả - nói, một câu phức tạp. Kết hợp Transformers với một thành phần mã hóa loại bỏ nhiễu và AI có thể làm được rất nhiều với tương đối ít data lưu trữ.
AI được hình thành có giọng nói không phải hoàn hảo lắm, với một âm thanh "hơi" robot, nhưng độ chính xác và dễ hiểu của chúng rất cao tới 99,84%.
Quan trọng là hệ thống này giúp chuyển văn bản thành giọng nói một cách nhanh chóng và đơn giản hơn. Các nhà lập trình không phải bỏ nhiều công sức để tạo ra tiếng nói ảo, giúp các công ty nhỏ, thậm chí là người nghiệp dư có thể tạo ra hệ thống giọng nói riêng.
Ái Vi (theo Engadget)
.