กูเกิลระบุ AI ของกูเกิลสร้างเสียงพูดได้แทบแยกกับเสียงจริงของมนุษย์ไม่ออกแล้ว

12185_17122823411719

https://www.facebook.com/rmutphysics/posts/1660830650648414

กูเกิลอ้างว่าระบบสังเคราะห์เสียงพูดจากปัญญาประดิษฐ์ (AI) เวอร์ชั่นล่าสุดที่มีชื่อว่า “Tacotron 2″ สามารถสังเคราะห์เสียงได้ชนิดที่เรียกว่าแทบแยกกับเสียงมนุษย์จริงไม่ออก รวมทั้งยังเผยแพร่ตัวอย่างเสียงให้เปรียบเทียบกันทางออนไลน์ด้วย (คลิกลิงค์ ที่มา google.github.io ทางด้านล่างบทความเพื่อลองฟังตัวอย่างเสียงได้เลย)

Tacotron 2 ทำงานโดยตรงกับตัวอักษร และกูเกิลระบุว่ามันสามารถใช้บริบทเพื่อที่จะอ่านออกเสียงได้อย่างถูกต้อง แม้จะเป็นคำที่สะกดเหมือนกันอย่างคำว่า read (กริยาช่อง 1) และ read (กริยาช่อง 3) ก็ตาม สามารถตอบสนองต่อวรรคตอน การใส่จุลภาค (comma) และเรียนรู้คำที่เน้นเสียงหนัก รวมถึงวิเคราะห์เครื่องหมายคำถาม (Question Mark) เพื่อปรับโทนเสียงได้อีกด้วย

โดยเดฟ เกิร์ชกอน อธิบายหลักการทำงานของ Tacotron 2 ไว้ว่า เป็นเทคโนโลยี Neural Network เชิงลึก 2 ส่วนมาประกอบกัน ส่วนแรกจะแปลข้อความจากตัวอักษรให้อยู่ในรูป Spectogram ซึ่งเป็นการแสดงภาพเพื่อแทนความถี่เสียงตามเวลา จากนั้น Spectogram จะถูกส่งเข้าสู่ AI ที่ชื่อว่า WaveNet ที่สร้างโดยบริษัท Alphabet (บริษัทแม่ของกูเกิล) ซึ่งจะอ่านแผนภูมิดังกล่าวและแปลงเป็นเสียงต่อไป

กูเกิลไม่ได้บอกออกมาตรงๆ ว่าในตัวอย่างเปรียบเทียบที่เผยแพร่อยู่ทางออนไลน์นั้น เสียงใดเป็นเสียงมนุษย์จริง หรือเสียงใดเป็นเสียงสังเคราะห์ แต่เกิร์ชกอน บอกว่าถ้ากด View Source ในหน้าเว็บก็รู้จากชื่อไฟล์ได้ทันที ดังนั้นถ้าไม่อยากถูกสปอยล์ก็ลองฟังกันก่อนนะครับ
ที่มา : 9to5google.com , google.github.io