دستیارهای صوتی هوشمند از جمله فناوری های نسبتاً جدیدی هستند که کار کاربران را برای کنترل ابزارهای مختلف مانند تلفن همراه هوشمند، تبلت، لپ تاپ و حتی تلویزیون آسان تر کرده اند. در سالهای اخیر این فناوری ها مثل سیری، آمازون الکسا، دستیار گوگل و کورتانا محبوبیت چشمگیری پیدا کرده اند. در سراسر جهان کاربران هر روز با این دستیارهای مجهز به هوش مصنوعی در ارتباط بوده و از آنها درخواست میکنند کارهایی مثل جستجوی اطلاعات از طریق اینترنت، ارسال پیام یا ایمیل، اجرای موسیقی مورد علاقهشان و غیره را انجام دهند.
هر چند دستیارهای صوتی میتوانند باعث راحتتر شدن استفاده از گوشی هوشمند، رایانه، تبلت و سایر سختافزارها شوند اما این ابزارها نیز منجر به ایجاد نگرانیهایی در زمینه امنیت و حریم خصوصی شدهاند. در واقع از این ابزارها می توان برای جمعآوری دادههای کاربران جهت هدفگیری تبلیغاتی استفاده کرد. حتی ممکن است مهاجمان سایبری از آنها برای سرقت اطلاعات حساس کاربران یا دستکاری وسایل شان استفاده کنند.
محققان یک مؤسسه فناوری به تازگی یک حمله ساده را به نمایش گذاشته اند که میتواند امکان دسترسی به دادههای شخصی کاربران را از طریق دستیارهای صوتی برای مهاجمان فراهم کند. یافتههای این گروه در مقالهای در سایت arXiv منتشر شده که در آن مخاطرات و آسیبپذیریهای ناشی از کار با این دستیارهای هوشمند بیان شده است.
Zhengxian He یکی از محققانی که در این مطالعه حضور داشته میگوید: «در سالهای اخیر شاهد حوادثی مثل شنود و ضبط تصادفی مکالمات کاربران توسط آمازون اکو و ارسال این مکالمات به یکی از مخاطبان گوشی کاربر بوده ایم. مخاطرات جدید ایجاد شده برای دادههای حساس کاربران در این محیطها که ناشی از مجاورت رایانههای هک شده و دستیارهای صوتی بود باعث شد که ما این تحقیق را شروع کنیم. ما میتوانیم ثابت کنیم که این تهدیدات، بسیار جدی و واقعی هستند و امکان سرقت اطلاعات ذخیره شده بر روی رایانه، از طریق دستیارهای صوتی و با یک خط تلفن وجود دارد».
He و همکارانش برای تشخیص این آسیبپذیریها حملهای انجام دادند که دادههای حساس کاربر را از طریق تلفن جمعآوری میکند. آنها ابتدا دادههای ذخیره شده در دستگاه کاربر را به فایل های صوتی تبدیل کرده و بررسی کردند که امکان انتقال این فایل های ضبط شده با یک تماس تلفنی ساده وجود دارد یا خیر. آنها برای انجام این کار، دادههای کاربران را به DTMF[1] تبدیل نمودند. در واقع با این کار، امکان انتقال آنها از طریق خطوط تلفن وجود خواهد داشت.
او گفته: «چالش بعدی که باید بر آن غلبه میکردیم، مخفی کردن انتقال این دادهها بود تا شخصی که نزدیک این رایانه ها قرار دارد متوجه موضوع نشود. ما برای انجام این کار، نواها را در فرکانسهای بسیار بالا یا به عبارتی فرکانس فراصوت (16 هزار) که انسان ها توان شنیدن آن را ندارند، تنظیم کردیم».
وقتی صدای کاربران توسط میکروفون آمازون اکو ضبط میشود، تنهای اصلی صدا دمدولاسیون میشوند. به عبارت دیگر، اطلاعات اصلی ارسالی از سیگنال های دریافتی استخراج و ضبط می گردند. محققان نشان داده اند که امکان ارسال این نواها به دستگاه دوردستی که تحت کنترل مهاجمان قرار دارد، وجود داشته و مهاجم در مقصد میتواند دوباره این دادهها را بازسازی و اطلاعات حساس را استخراج کند.
He میگوید: «حملهای که ما اجرا کردیم بدون تشخیص توسط انسان قابل انجام است و امکان استخراج مخفیانه اطلاعات از طریق اسپیکرهای هوشمند و رایانهای که هکرها به آن نفوذ کرده باشند را فراهم میکند. در شرایط واقعی، حجم متوسطی از اطلاعات (یعنی در حد چند کیلوبایت) را می توان با دقت بالا از طریق یک تماس تلفنی در عرض کمتر از 5 دقیقه منتقل کرد؛ حتی اگر اسپیکر هوشمند با سیستمی که دادهها روی آن ذخیره شده، چند متر هم فاصله داشته باشد».
آزمایشهای صورت گرفته توسط He و همکارانش نشان میدهند که به راحتی می توان دادههای کاربران را از طریق اسپیکرهای هوشمندی مثل آمازون الکسا برای مهاجمان ارسال کرد. سرعت انتقال اطلاعات به عوامل مختلفی از جمله فاصله بین اسپیکر و رایانه، سروصداهای پس زمینه و فرکانس امواج اپراتور (یعنی امواجی که دادهها از طریق آن ارسال میشوند) بستگی دارد.
محققان در مقاله شان راهکارهایی را برای مقابله با این آسیبپذیریها پیشنهاد کردهاند و قصد دارند در مطالعات آتی به بررسی آنها بپردازند. به گفته He: «ما قصد داریم در مطالعات بعدی خودمان راهبردهایی برای افزایش امنیت دستیارهای صوتی پیاده سازی کنیم. همچنین می خواهیم سازوکارهای دفاعی ممکن را برای مقابله با این حملات بررسی نماییم».
[1] Dual Tone Multi Frequency
منبع: https://techxplore.com/news/2020-10-sensitive-user-smart-speakers.html