هوش مصنوعی امواج مغزی را به گفتار تبدیل می‌کند

عکس مربوط به آموزش و ارتقا سلامت

هوش مصنوعی چگونه باعث گفتار می شود؟

دانشمندان علوم اعصاب در تلاش برای ایجاد صدا در افرادی که نمی توانند صحبت کنند، توسط هوش مصنوعی دستگاهی را طراحی کرده اند که می تواند سیگنال های مغز را به گفتار تبدیل کند. این فناوری هنوز برای مرحله ی اجرا و خارج از آزمایشگاه، به اندازه کافی دقیق نیست. اگرچه، می تواند جملات کاملی را تولید کند که کاملاً قابل فهم باشند. سازندگان آن در یک مطالعه که در 24 آوریل در Nature، منتشر شده، دستگاه رمزگشای گفتار خود را توصیف کردند.

چتان پاندارینات Chethan Pandarinath، متخصص عصب شناسی در دانشگاه اموری در آتلانتا، جورجیا می گوید: دانشمندان قبلاً از هوش مصنوعی برای ترجمه تک کلمات استفاده کرده اند، که اکثراً از یک هجاء یا جزء کلمه تشکیل شده است. وی می گوید: جهش از هجا های تک به جملات، از نظر فنی کاملاً چالش برانگیز است و یکی از مواردی است که کار فعلی را بسیار چشمگیر می کند.

نقشه برداری حرکات

بسیاری از افرادی که توانایی ارتباط برقرار کردن از طریق صحبت کردن را از دست داده اند، می توانند با استفاده از این فناوری هوش مصنوعی به برقراری ارتباط دست یابند. حرکات ریز و درشتی را انجام دهند تا مکان نما را برای انتخاب حروف یا کلمات، روی صفحه انتخاب کنند. فیزیکدان انگلیسی، استفان هاوکینگ، که به بیماری نورون حرکتی مبتلا بود، یک نمونه مشهور می باشد.

ادوارد چانگ، رهبر این مطالعه، جراح مغز و اعصاب در دانشگاه کالیفرنیا، سانفرانسیسکو، می گوید: وی از دستگاه تولید کننده گفتار فعال شده توسط عضله، در گونه ی خود استفاده می کرد.

چانگ می گوید، از آنجا که افرادی که از چنین وسایلی استفاده می کنند، باید کلمات را از طریق نامه تایپ کنند، این دستگاه ها می توانند بسیار کند باشند و حداکثر ده کلمه در دقیقه تولید کنند. گفتار طبیعی به طور متوسط ​​150 کلمه در دقیقه است. او می گوید: این کارآیی دستگاه صوتی است که به ما امکان می دهد این کار را انجام دهیم و به همین ترتیب چانگ و تیمش تصمیم گرفتند هنگام ساختن رمز گشاینده ی خود، از سیستم دستگاه صوتی الگو بگیرند.

یک دست که دارای الکترودهای داخل جمجمه ای است: یک ورق کف به اندازه پلاستیک حک شده با فلز ، متصل به سیم ها. محققان الکترودهای مشابه این ها را در جمجمه شرکت کنندگان قرار دادند تا سیگنالهای مغزی آن ها را ثبت کنند.

محققان با پنج نفر که الکترودی را به عنوان بخشی از درمان صرع، در سطح مغز خود قرار داده بودند، کار کردند. اول، تیم هنگامی که شرکت کنندگان صدها جمله را با صدای بلند خواندند، فعالیت مغز را ثبت کردند. سپس، چانگ و همکارانش این ضبط ها را با داده های آزمایش های قبلی ترکیب کردند که تعیین می کند چگونه حرکات زبان، لب ها، فک و حنجره ایجاد صدا می کند.

این تیم الگوریتم یادگیری عمیق را بر روی این داده ها آموزش داده و سپس برنامه را در رمزگشایی خود گنجانده اند. دستگاه، سیگنال های مغز را به حرکات تخمینی دستگاه صوتی تبدیل کرده، سپس این حرکات را به گفتار مصنوعی تبدیل می کند. چانگ می گوید افرادی که به 101 جمله ترکیبی گوش داده اند می توانند 70٪ کلمات را بطور متوسط ​​درک کنند.

در آزمایشی دیگر، محققان از یک شرکت کننده خواسته اند جملات را با صدای بلند بخوانند و سپس با حرکت دادن دهان خود بدون تولید صدا، جملات مشابه را تقلید کنند. چانگ می گوید جملاتی که در این آزمون ساخته شده اند از کیفیت پایین تر از جمله هایی هستند که از گفتار شنیداری ایجاد شده اند، اما نتایج، هنوز دلگرم کننده هستند.

استفانی ریئس، متخصص علوم اعصاب در دانشگاه ایالتی سن دیگو در کالیفرنیا، گفت: گفتاری که با نقشه برداری از فعالیت های مغزی به حرکات دستگاه صوتی و سپس ترجمه ی آنها به صدا، به دست می آید،  آسان تر از آنچه که توسط ایجاد نقشه برداری از فعالیت مغز به طور مستقیم به صدا ایجاد می شود، درک می شود.

این مطالعه یک مرحله واقعا مهم است، اما هنوز باید راه طولانی تری را پیش برود تا گفتار سنتز شده، به راحتی قابل درک باشد.

امکان ارسال دیدگاه وجود ندارد!