Trong thời đại AI bùng nổ, một trong những bước tiến vượt bậc khiến người dùng không khỏi ngỡ ngàng chính là giọng đọc AI có cảm xúc như người thật. Mới đây, OpenAI đã tung ra phiên bản Text-to-Speech (TTS) mới – công nghệ chuyển văn bản thành giọng nói với chất lượng và độ tự nhiên khiến nhiều người không thể phân biệt đâu là người thật, đâu là AI.
OpenAI Tech-to-Speech - Cuộc cách mạng trong giọng đọc AI
Với bản cập nhật mới nhất, OpenAI đã đưa khả năng tổng hợp giọng nói lên một tầm cao mới. Không chỉ là đọc văn bản một cách khô khan, TTS của OpenAI nay đã có thể biểu đạt cảm xúc như:
Sự phấn khích, vui vẻ
Sự nhẹ nhàng, sâu lắng
Giọng kể chuyện truyền cảm
Ngữ điệu lên xuống như người thật đang trò chuyện
Vừa nói vừa cười giống như con người
Điều này mở ra tiềm năng ứng dụng cực kỳ rộng lớn, từ sản xuất nội dung YouTube, podcast, cho đến hỗ trợ người khiếm thị, tổng đài ảo, giáo dục online, v.v.
Đặc biệt, khi so sánh với các công cụ khác như Google Text-to-Speech hay Amazon Polly, thì OpenAI TTS tạo ra cảm giác tự nhiên hơn rõ rệt.
Một số ví dụ về giọng đọc có cảm xúc
Giọng người vợ cằn nhằn:
openai-fm-coral-audio.wav
(792 KB)
Giọng cô gái nhõng nhẽo:
openai-fm-sage-audio.wav
(827 KB)
Giọng chàng trai vui tính:
openai-fm-verse-audio.wav
(989 KB)
Giọng khách hàng phàn nàn:
openai-fm-ballad-audio.wav
(804 KB)
Hướng dẫn tạo giọng đọc AI có cảm xúc trên openai.fm
Nếu bạn muốn trải nghiệm giọng đọc AI có cảm xúc như người thật mà OpenAI vừa giới thiệu, thì https://openai.fm chính là nơi bạn nên bắt đầu. Đây là nền tảng chính thức mà OpenAI dùng để demo công nghệ Text-to-Speech (TTS) mới nhất của họ.
Tại đây, bạn sẽ thấy giao diện cực kỳ đơn giản nhưng hiện đại, gồm 3 phần chính:
Phần chọn giọng đọc
Phần nhập đoạn mô tả
Phần nhập đoạn văn cần đọc
Bước 2: Nhập nội dung
Chọn giọng đọc
Đầu tiên là ở phần chọn giọng đọc, các bạn chọn giọng mình muốn, gồm có giọng nam và giọng nữ. Và các bạn để ý những giọng đọc mà có hình thoi ở góc dưới bên trái, nghĩa là những giọng đọc chất lượng cao.
Giọng đọc Sage có chất lượng cao
Một số giọng nổi bật như: "Ash", "Coral", "Sage" – mỗi giọng đều có cá tính riêng rất ấn tượng.
Mô tả giọng đọc
Phần này các bạn sẽ mô tả chi tiết về giọng đọc mình muốn, như là cảm xúc khi nói, ngữ điệu, tốc độ....v...v.. Bạn có thể tham khảo những cái mẫu đã có.
Để cho tiện lợi thì mình có tạo sẵn một GPT để tự động viết mô tả giọng đọc cho các bạn. Bạn chỉ cần nhập sơ qua về nội dung giọng đọc, GPT này sẽ cho bạn đoạn mô tả và đoạn script làm ví dụ.
Sau đó nhập sơ qua nội dung giọng đọc mà bạn muốn tạo, và bạn sẽ có đoạn Voice Instruction để nhập vào phần mô tả, và đoạn Sample Script để làm ví dụ.
Nhập đoạn văn bản cần đọc
Gõ hoặc dán nội dung bạn muốn chuyển thành giọng đọc vào ô nhập văn bản. Câu văn càng rõ ràng, có dấu câu, thì giọng đọc càng tự nhiên.
Hiện tại thì giới hạn 1000 ký tự mỗi lần.
Bước 3: Tạo giọng đọc, nghe thử và tải về
Sau khi đã nhập đầy đủ thông tin, bạn chọn vào nút "Play" để nghe thử.
Download: Tải file .wav đoạn văn đã tạo giọng đọc
Share: Lấy đường link để chia sẻ
Play: Tạo/Dừng giọng đọc
Một số mẹo tăng tính tự nhiên khi sử dụng Openai Text-to-Speech
Sử dụng dấu câu hợp lý: dấu phẩy (,), chấm (.), chấm hỏi (?) giúp AI ngắt nghỉ đúng chỗ.
Chèn hiệu ứng cảm xúc bằng từ khóa: như “Wow!”, “Oh no...”, “Haha” để AI thể hiện cảm xúc rõ hơn.
Với trang https://openai.fm, bạn có thể trải nghiệm giọng đọc AI cực kỳ tự nhiên, có cảm xúc, và hoàn toàn miễn phí. Dù hiện tại giọng đọc tiếng Việt vẫn còn vài chỗ chưa tự nhiên, nhưng sự mượt mà, sống động của công nghệ này đang mở ra một kỷ nguyên mới cho truyền thông, giáo dục và sáng tạo nội dung.
Link để chia sẻ:
Author
Yuto
Mình lập blog này từ năm 2024, trong giai đoạn phát triển chóng mặt của công nghệ AI. Mục tiêu của blog này là chia sẻ những kiến thức cơ bản, những mẹo vặt về máy tính, và hướng dẫn sử dụng một số công cụ AI cơ bản.
Cảm ơn bạn đã ghé thăm website của mình. Hy vọng những bài viết trên website này sẽ có ích cho bạn.