Theo Venture Beat, thuật toán Brand Voice thực hiện công việc nhanh hơn các diễn viên chuyên nghiệp. Amazon hy vọng rằng công ty sẽ có nhiều đơn hàng đặt phát triển giọng nói với bất kỳ loại giọng nói hoặc kiểu phát âm nào để quảng bá thương hiệu của họ.
Cụ thể, Amazon cùng với bộ phận AWS dựa trên thuật toán đám mây của mình đã ra mắt thuật toán Brand Voice, một dịch vụ biến văn bản thành giọng nói tự nhiên. Như các nhà quản lý dự án giải thích, các tổ chức sẽ có thể mang lại sự độc đáo cho thương hiệu của họ. Nói cách khác, một bài phát biểu quảng cáo theo mô hình máy tính sẽ phát ra âm thanh như thể một người nổi tiếng nào đó đã nói.
Amazon đã giúp chuỗi cửa hàng thức ăn nhanh của KFC ở Canada tạo ra tiếng nói với giọng Nam Mỹ điển hình của đại tá Sanders. Và đối với Ngân hàng quốc gia Úc, một giọng nói đã được phát triển với đặc điểm phát âm của cư dân xứ sở chuột túi. Các chi tiết kỹ thuật về quá trình giọng nói được tạo ra bởi trí tuệ nhân tạo đã được công bố trong bài viết "Effect of data reduction on sequence-to-sequence neural TTS" được công bố hồi năm ngoái. Trong đó, các tác giả đã mô tả một hệ thống học cách bắt chước cách phát âm mới chỉ trong vài giờ luyện tập chứ không phải trong hàng chục giờ như diễn viên phải luyện đọc để có được ngữ điệu cần thiết. Mô hình AI của Amazon gồm 2 thành phần. Đầu tiên là một mạng nơ ron phát triển tín hiệu âm thanh và một bộ phát âm theo phong cách trung tính được kết hợp với một lượng nhỏ lời nói theo phong cách mong muốn.
Trước đó, vào mùa thu năm ngoái, người ta đã biết về một vụ lừa đảo lớn bằng thuật toán học máy. Những kẻ tấn công đã sử dụng AI để giả giọng nói và mạo danh giám đốc của một công ty Đức để lừa đảo số tiền hơn 200.000 USD.
Vũ Trung Hương