به گزارش هلدینگ ICT – هوش مصنوعی میتواند گفتار را از روی فعالیت مغز و با دقت شگفتانگیزی رمزگشایی کند. این دستاورد میتواند کمک بسیاری به افراد فاقد توان ارتباط ازطریق گفتار برساند.
جیووانی دی لیبرتو، دانشمند فعال درزمینه علوم کامپیوتر در کالج ترینیتی دوبلین که در این تحقیق شرکت نداشته، میگوید:
عملکرد هوش مصنوعی بالاتر از آن چیزی بود که که بسیاری از افراد در این مرحله اساساً آن را ممکن میپنداشتند.
محققان در روز ۲۵ ماه اوت سال جاری میلادی (حدود دو هفته پیش) در arXiv.org گزارش دادند که هوش مصنوعی توسعهیافته در متا، شرکت مادر فیسبوک، در نهایت میتواند به کمک هزاران نفری در سراسر جهان آید که قادر به برقراری ارتباط ازطریق گفتار، تایپ یا زبان اشاره نیستند. این شرایط وخیم و دشوار شامل بسیاری از بیمارانی میشود که با حداقل هوشیاری یا «حالت نباتی» دستبهگریبان هستند؛ حالتی که اکنون بهطور کلی بهعنوان سندرم بیداری بیپاسخ شناخته میشود.
بیشتر فناوریهای موجود برای کمک به چنین بیمارانی بهمنظور برقراری ارتباط، نیاز به جراحیهای خطرناک مغز برای کاشت الکترود دارند. ژان رمی کینگ، عصبشناس و محقق هوش مصنوعی در متا که در حال حاضر در École Normale Supérieure در پاریس مشغول به کار است، میگوید:
رویکرد جدید میتواند بدون استفاده از روشهای تهاجمی، رهیافتی مناسب برای کمک به بیماران مبتلا به نقصهای ارتباطی فراهم کند.
کینگ و همکارانش یک ابزار محاسباتی را برای تشخیص کلمات و جملات موجود در ۵۶ هزار ساعت گفتار ضبطشده از ۵۳ زبان دنیا آموزش دادند. ابزار اخیر که بهعنوان یک مدل زبان نیز شناخته میشود، درنهایت توانست چگونگی عملکرد ویژگیهای خاص یک زبان را هم در سطح دقیق و جزئی (به حروف یا هجاها فکر کنید) و هم در سطح گستردهتری مانند یک کلمه یا جمله تشخیص داده و بهاصطلاح رایج در هوش مصنوعی، آنها را یاد بگیرد.
تیم پژوهشی یک هوش مصنوعی را روی این مدل زبانی و در پایگاههای دادهی چهار مؤسسه اعمال کردند که شامل فعالیت مغزی ۱۶۹ داوطلب میشد. شرکتکنندگان در این پایگاههای اطلاعاتی، به داستانها و جملات مختلفی از جمله «پیرمرد و دریا» اثر ارنست همینگوی و «ماجراهای آلیس در سرزمین عجایب» اثر لوئیس کارول گوش میدادند؛ این گوش دادن در حالی رخ میداد که مغز افراد همزمان با استفاده از مگنتوآنسفالوگرافی یا الکتروانسفالوگرافی مورد اسکن قرار میگرفت. گفتنی است که تکنیکهای یادشده، بخشهای مغناطیسی یا الکتریکی سیگنالهای مغز را اندازهگیری و ارزیابی میکنند.
تیم پژوهشی در ادامه با اتکا به یک روش محاسباتی که به توضیح تفاوتهای فیزیکی بین مغزهای واقعی کمک میکند، برای رمزگشایی شنیدههای شرکتکنندگان با استفاده از تنها سه ثانیه از دادههای مربوط به فعالیت مغز آنها تلاش کردند.آنها به هوش مصنوعی دستور دادند تا صداهای گفتار بهدستآمده از پخشهای داستانی را با الگوهای فعالیت مغزی محاسبهشده توسط هوش مصنوعی مطابق با شنیدههای مردم، همتراز و میزانبندی کند. سپس با درنظر داشتن بیش از ۱۰۰۰ احتمال مختلف توسط هوش مصنوعی، پیشبینیهایی درباره آن چیزی که فرد در آن بازه زمانی کوتاه شنیده، انجام شد.
با استفاده از مگنتوآنسفالوگرافی یا MEG، پاسخ صحیح در ۷۳ درصد مواقع در میان ۱۰ حدس برتر هوش مصنوعی قرار داشت. این مقدار با الکتروانسفالوگرافی به بیش از ۳۰ درصد کاهش یافت. دی لیبرتو میگوید عملکرد MEG بسیار خوب است؛ اما او نسبت به استفاده عملی آن خوشبین نیست:
ما با آن چه میتوانیم بکنیم؟ هیچ. مطلقا هیچ چیزی.
دلیل اصلی ناامیدی لیبرتو آن این است که MEG اساساً به یک دستگاه حجیم و گرانقیمت نیاز دارد. آوردن این فناوری به کلینیکها مستلزم نوآوریهای علمی است؛ نوآوریهایی که بتوانند ماشینها را ارزانتر و آسانتر کنند.
بهباور جاناتان برنان زبانشناس در دانشگاه میشیگان، درک معنای واقعی «رمزگشایی» در این مطالعه نیز مهم است. این کلمه اغلب برای توصیف فرایند رمزگشایی اطلاعات بهطور مستقیم از یک منبع (و در این مورد؛ گفتار از فعالیت مغز) استفاده میشود. اما هوش مصنوعی تنها به این دلیل توانسته در چنین کاری موفق باشد که فهرست محدودی از پاسخهای صحیح ممکن برای حدس در برابرش ارائه شده بود. برنان میگوید:
در مورد زبان، اگر بخواهیم برای استفاده عملی آن را به مقیاس کوچکتری تقلیل دهیم شدنی نیست؛ زیرا زبان بیپایان است.
علاوه بر این هوش مصنوعی اطلاعات شرکتکنندگانی را رمزگشایی کرده است که منفعلانه به صدا گوش میدهند و این چیزی نیست که مستقیماً به بیماران غیرکلامی مربوط باشد. برای اینکه ابزار فوق واقعا به یک ابزار ارتباطی معنادار تبدیل شود، دانشمندان بایستنی دریابند که چگونه میتوان از فعالیت مغز این بیماران برای که واقعا قصد بیان کردنش را دارند، رمزگشایی کرد؛ از جمله مسائل اولیهای مثل ابراز گرسنگی، ناراحتی یا یک «بله» یا «نه» ساده.
کینگ هم با این انتقادها موافق است و تصریح میکند که مطالعه جدید بهمنزلهی «رمزگشایی ادراک گفتار است؛ نه تولید آن». اگرچه هدف نهایی دانشمندان، تولید گفتار است، ولی به نظر میرسد فاصلهی زیادی تا رسیدن به آن نقطه داشته باشیم.