اگر فیلمهایی مانند “ترمیناتور” را تماشا کرده باشید میدانید که پتانسیلهای به نمایش گذاشته شده از هوش مصنوعی، به شکل چشمگیری با تکنولوژیهای فعلی تفاوت دارد. قطعا کسی هم از این موضوع هراس ندارد که هوش مصنوعی بیکسبی سامسونگ بتواند جهان را تحت سلطه خود در بیاورد.
گوگل از روز پنجشنبه ۱۳ آوریل اعلام کرد دو محصول هوش مصنوعی جدید به کاربران وب اجازه معناشناسی و پردازش طبیعی زبان را میدهد. بنابراین به نظر میرسد تکنولوژی فیلمهای علمی-تخیلی به آرامی در حال تبدیل شدن به واقعیت است.
ایجاد صدای بسیار طبیعی از متن به گفتار یک هدف برای چندین دهه است. پیشرفتهای زیادی در تحقق TTS) text to speech) یا همان متن به گفتار طی چند سال گذشته صورت گرفته و بسیاری از قطعات تکامل سیستم TTS بهبود چشمگیری داشته است. تاکرون(Tacotron2) نامی که کمپانی کوگل بر روی این سیستم گذاشته، با استفاده از سیستمهای عصبی آموزش داده شده است.
یک مدل توالی بهینهسازی شده برای TTS با نقشهبرداری از حروف و ویژگیهایی که صدا را رمزگذاری میکند نه تنها تلفظ کلمات، بلکه ظرافتهای مختلف سخنرانی انسان، از جمله حجم و سرعت گفتار را به خوبی نمایان میکند.
گوگل در ارزیابی که از شنوندگان انسانی برای سنجش طبیعی بودن سخنرانی انجام داده است، امتیازی کسب کرده که قابل مقایسه با ضبط حرفه ای است.
با اینکه نمونههای گوگل به نظر عالی می رسند هنوز مشکلاتی وجود دارد که باید حل شود. به عنوان مثال Tacotron 2 مشکلاتی را با تلفظ کلمات پیچیده مانند “دکورم” دارد و در مواردی حتی می تواند صداهایی عجیب و غریب را به صورت تصادفی ایجاد کند. هم چنین گوگل هنوز قادر نیست سخنرانی تولید شده را کنترل کند؛ مثلا هدایت آن به صدای خوشحال یا غمگین.
گفتنی است؛ علی رغم این پیشرفتها، هنوز تفاوت زیادی میان مکالمات انسانی و هوش مصنوعی وجود دارد. به عبارت دیگر با اینکه هوش مصنوعی قادر به تقلید از انسان در ادای کلمات است، هیچ شخصیتی از خود ندارد و قادر به بیان عبارات غیر قابل پیش بینی نیست.