اگر فیلم‌هایی مانند “ترمیناتور” را تماشا کرده باشید می‌دانید که پتانسیل‌های به نمایش گذاشته شده از هوش مصنوعی، به شکل چشم‌گیری با تکنولوژی‌های فعلی تفاوت دارد. قطعا کسی هم از این موضوع هراس ندارد که هوش مصنوعی بیکسبی سامسونگ بتواند جهان را تحت سلطه خود در بیاورد.

گوگل از روز پنجشنبه ۱۳ آوریل اعلام کرد دو محصول هوش مصنوعی جدید به کاربران وب اجازه معناشناسی و پردازش طبیعی زبان را            می‌دهد. بنابراین به نظر می‌رسد تکنولوژی فیلم‌های علمی-تخیلی به آرامی در حال تبدیل شدن به واقعیت است.

ایجاد صدای بسیار طبیعی از متن به گفتار یک هدف برای چندین دهه است. پیشرفت‌های زیادی در تحقق TTS) text to speech) یا همان متن به گفتار طی چند سال گذشته  صورت گرفته و بسیاری از قطعات تکامل سیستم TTS بهبود چشمگیری داشته است. تاکرون(Tacotron2) نامی که کمپانی کوگل بر روی این سیستم گذاشته، با استفاده از سیستم‌های عصبی آموزش داده شده است.

دو سرویس هوش مصنوعی جدید گوگل
یک مدل توالی بهینه‌سازی شده برای TTS با نقشه‌برداری از حروف و ویژگی‌هایی که صدا را رمزگذاری می‌کند نه تنها تلفظ کلمات، بلکه ظرافت‌های مختلف سخنرانی انسان، از جمله حجم و سرعت گفتار را به خوبی نمایان می‌کند.

گوگل در ارزیابی که از شنوندگان انسانی برای سنجش طبیعی بودن سخنرانی انجام داده است، امتیازی کسب کرده که قابل مقایسه با ضبط حرفه ای  است.

با اینکه نمونه‌های گوگل به نظر عالی می رسند هنوز مشکلاتی وجود دارد که باید حل شود. به عنوان مثال Tacotron 2 مشکلاتی را با تلفظ کلمات پیچیده مانند “دکورم” دارد و در مواردی حتی می تواند صداهایی عجیب و غریب را به صورت تصادفی ایجاد کند. هم چنین گوگل هنوز قادر نیست سخنرانی تولید شده را کنترل کند؛ مثلا هدایت آن به صدای خوشحال یا غمگین.

گفتنی است؛ علی رغم این پیشرفت‌ها، هنوز تفاوت زیادی میان مکالمات انسانی و هوش مصنوعی وجود دارد. به عبارت دیگر با این‌که هوش مصنوعی قادر به تقلید از انسان در ادای کلمات است، هیچ شخصیتی از خود ندارد و قادر به بیان عبارات غیر قابل پیش بینی نیست.