بهینه‌سازی سیستم ترجمه مبتنی‌بر هوش مصنوعی گوگل در ترجمه ورودی صوتی

بی‌شک، ارتباطات، مفهوم گسترده‌‌ای دارد و تنها به‌معنی انتقال واژه‌ها بین دو طرف یک رابطه نیست. گوگل نمونه‌ی اولیه‌ی سیستم ترجمه مبتنی‌بر هوش مصنوعی را به‌نمایش گذاشته است. این سیستم جدید نه‌تنها واژه‌هایی را که از دهان گوینده خارج می‌شود به‌خوبی ترجمه می‌کند، بلکه در حین ترجمه به لحن و حالت گفتار گوینده نیز توجه نشان می‌دهد و لحن فایل ورودی را شبیه‌سازی می‌کند.

سیستم مبتنی‌بر هوش مصنوعی ترجمه‌ی گوگل، Translatotron نام‌گذاری شده است. محققان گوگل در مورد جزئیات عملکرد این سیستم جدید در وبلاگ رسمی گوگل توضیحات مفصلی ارائه‌ داده‌‌اند. البته باید خاطرنشان کرد که انتظار نمی‌رود Translatotron به این سرعت به محصولی تجاری تبدیل شود ولی توسعه‌ی تجاری آن درنهایت محقق خواهد شد.

 

اوایل سال جاری، مدیر بخش ترجمه‌ی گوگل در گفتگویی با ورج اعلام کرده بود که گوگل قصد دارد ابزارهایی برای بهبود ترجمه ازجمله اضافه کردن قدرت تشخیص لحن گوینده را به سیستم ترجمه‌ی این شرکت اضافه کند تا گوگل ترنسلیت بتواند با کارایی بهتر و همچنین خطای کمتری مکالمات را ترجمه کند. 

گوگل، فایل‌های نمونه‌ی ترجمه‌ی صوتی شرکت را به‌اشتراک گذاشته شده است تا کاربران بتوانند با نحوه‌ی عملکرد سیستم جدید ترجمه‌ی گوگل آشنا شوند. فایل اول، فایل صوتی ورودی است. فایل صوتی دوم، ترجمه‌ی اصلی به شکل مرسوم و فایل صوتی سوم نیز نمونه‌ی ترجمه‌ی بهینه‌سازی‌شده توسط سیستم Translatotron گوگل ترنسلیت است.

صدای گوینده به زبان اسپانیایی

 

صدای ماشین پس از ترجمه

 

صدای ترجمه‌شده با شبیه‌سازی صدای گوینده

اگر در فایل‌های صوتی دقت کنید، متوجه می‌شوید ترجمه فایل صوتی فقط به‌صورت کلمه‌به‌کلمه انجام نشده و در ترجمه‌ی با سیستم  Translatotron تغییر لحن گوینده براساس محتوای ترجمه‌شده کاملا مشهود است. گروه تحقیقاتی ترجمه‌ی گوگل نمونه‌های بیشتری از فایل‌های صوتی ترجمه‌شده با سیستم جدید را به‌اشتراک گذاشته است. 

سیستم Translatotron مبتنی‌بر هوش مصنوعی، ترجمه‌ای غیرمنفعل و غیرخطی ارائه می‌دهد که می‌تواند برای کاربران از جذابیت بالاتری نسبت به ترجمه‌ی واژه‌به‌واژه و بدون توجه به لحن گوینده برخوردار باشد. باتوجه به اینکه هیچ‌گونه توقفی برای انجام فعالیت‌ها و وظایف بعدی در سیستم مبتنی‌بر هوش مصنوعی وجود ندارد، به چنین سیستمی، سرتاسری یا end-to-end گفته می‌شود. گوگل معتقد است که استفاده از رویکردهای سرتاسری باعث افزایش سرعت ترجمه خواهد شد. علاوه‌بر این، باتوجه به اینکه توقفی در حین انجام مراحل ترجمه هم وجود ندارد، از بروز خطاهای متعدد حین ترجمه کاسته می‌شود.

داده‌هایی که در این مدل پردازش می‌شوند، داده‌های خام صوتی نیستند. بلکه، طیف ‌نگاره داده‌ها یا جزئیات تصویری داده‌ها نیز مورد استفاده قرار می‌گیرد. درواقع، برای ترجمه‌ی گفتار از یک زبان به زبان دیگر از تصاویر هم استفاده می‌شود که برای درگیر کردن ذهن مناسب است.

باید ببینیم چنین سیستم‌هایی درعمل به‌ چه صورت می‌توانند به کاربران کمک کنند. گوگل همواره سعی دارد که طرح‌های توسعه‌ای بلندپروازانه‌ای را دنبال کند تا کاربران به‌صورت موثرتری بتوانند از گوگل ترنسلیت استفاده کنند. باید منتظر باشیم و ببینیم سیستم جدید ترجمه‌ی گفتاری مبتنی‌بر هوش مصنوعی تا چه اندازه می‌تواند مؤثر واقع شود. 





تاريخ : یک شنبه 29 ارديبهشت 1398برچسب:, | | نویسنده : مقدم |