آشنایی با روش های جلوگیری از نشت داده

27 اسفند

0 188 خواندن این مطلب 21 دقیقه زمان میبرد

جلوگیری از نشت داده [1] (DLP) چالشی است که در مقایسه با لایه‌های امنیتی مرسوم و مورد استفاده در بیشتر سازمان‌ها کاملاً از جنسی متفاوت به شمار می آید. لایه‌های امنیتی متداول سازمانی، شامل «سیستم‌های تشخیص نفوذ شبکه» و «سامانه‌های محافظت از نقاط انتهایی شبکه» هستند. ویژگی‌های متفاوت DLP با سازوکارهای محافظتی امنیتی سنتی، مسئولیت کسب وکارها را برای بازرسی مداوم داده‌ها و مقابله با نشت آنها بیشتر می کند. این موارد مستلزم وجود هماهنگی ها، خط مشی ها و تحلیل‌های دقیق و با جزییات کافی است تا منجر به افزایش پیچیدگی پیاده سازی چنین سازوکاری در سطح سازمان نشود.

تشخیص و جلوگیری از نشت داده‌ها می‌تواند از آسیب رسیدن به شهرت و برند سازمانی، جلوگیری از امکان رقابت با سایر رقبا یا مشکلات قانونی جلوگیری کند. سیستم DLP، راهکاری است که یک سازمان با استفاده از آن می تواند حساس‌ترین داده‌های خود، محل‌های مجاز برای ذخیره سازی یا پردازش داده ها، افراد یا برنامه‌های کاربردی که امکان دسترسی به داده‌ها را دارند و نحوه محافظت از داده‌های حساس در برابر سرقت و از دست رفتن را مشخص کند.

در این مقاله، چارچوبی را برای تعریف اجزای یک برنامه DLP ارایه خواهیم کرد. همچنین اجزای تشکیل دهنده راهبرد تشخیص و جلوگیری از نشت داده و دامنه شمول آنها را در این ساختار محافظتی مشخص می کنیم. این اجزا به طور کلی عبارتند از نوع داده‌ها، طبقه‌بندی داده‌ها و عوامل تهدید کننده امنیت داده‌ها که لازم است در چرخه مدیریت برنامه DLP، هر یک از آنها به صورت دوره‌ای تعریف، ارزیابی مجدد و تکمیل شوند.

انواع داده

در حالت کلی، داده‌ها به دو صورت متفاوت ذخیره می‌شوند: ساخت یافته و بدون ساختار (یا غیرساخت یافته). Nemschoff، مثال‌های عملی و کاربردی استفاده از داده‌های ساخت یافته و بدون ساختار را ارایه کرده است.

یک مثال قدیمی برای داده‌های ساخت یافته، انجام پردازشی در پایگاه داده است که عددهای باینری را به روشی ساخت یافته ذخیره و اندیس گذاری کرده و به این ترتیب، امکان ارجاع دهی یا وابستگی‌های تکرار شونده (یا یادآوری) را فراهم می‌کند. ورودی و خروجی‌های هر پردازش هم قابل تکرار و قابل پیش بینی هستند. اینها ویژگی داده‌های ساخت یافته هستند و کاربردهای قابل پیش بینی این داده‌ها، پایان پذیر و قطعی است. بنابراین منطق بازرسی DLP در رابطه با داده‌های ساخت یافته نیز پایان پذیر و محدود است.

داده‌های بدون ساختار یا غیرساخت یافته شامل داده‌های مربوط به پردازش مستندات، ایمیل‌ها، سرویس پیام کوتاه[2] (SMS)، تعاملات صوتی/ تصویری یا عکس ها هستند. جلوگیری از نشت داده (DLP) برای کار با چنین داده‌هایی اغلب با چالش روبرو است زیرا حالت پردازش این داده‌ها تصادفی و بی پایان است.

برخلاف داده‌های ساخت یافته، داده‌های غیرساخت یافته معمولاً تکرارپذیر یا قابل پیش بینی نیستند. به عنوان مثال، برنامه‌های کاربردی پردازش سند که به کاربران اجازه می‌دهند مستندات مختلف را تغییر داده و ذخیره کنند، جزو داده‌های بدون ساختار در نظر گرفته می‌شوند. تعیین این که چه چیزهایی باعث می‌شود محتوای یک سند، حساس تلقی شود باز هم خود یک چالش بوده و فرایندی پایان پذیر و قطعی نیست.

تعریف و طبقه‌بندی داده‌ها

تعریف نوع داده‌ها در DLP، با دو هدف صورت می‌گیرد. اول این که پس از تعریف نوع داده، سازمان کاربرد داده را درک کرده و مکان‌های محدودی که ممکن است داده‌ها در آنجا وجود داشته باشد را شناسایی می‌کند. دوم هم تعریف نوع داده است که سازمان را قادر می‌سازد تا یک روش خاصی را برای طبقه‌بندی نوع داده تعریف کند. تعریف نوع داده مشخص می‌کند که آیا داده، ساخت یافته است یا غیرساخت یافته و یا هر دوی این موارد.

در طبقه‌بندی، سازمان ویژگی‌های داده را تعریف می‌کند تا مطمئن شود که فناوری‌های تشخیص می‌توانند براساس آن چه در خط مشی‌ها تعریف شده است، داده‌ها را شناسایی و مدیریت کنند. طبقه‌بندی نوع داده‌های حساس کمک می‌کند برنامه DLP بتواند قابلیت‌های تشخیصی مورد نیاز برای هشداردهی به سازمان و پیشگیری از تخلفات مرتبط با داده‌ها را تعیین کند.

وجود ساختار طبقه‌بندی برای موفقیت یک برنامه DLP ضروری است. موقعیت، کاربران و نوع داده‌ها دائماً در حال تغییر است. با ارزیابی مداوم طبقه‌بندی و تغییر احتمالی مکان‌های مورد بازرسی، ساختار طبقه‌بندی باید حداکثر به پنج طبقه‌بندی یا خط مشی محدود شود. وجود خط مشی‌های استاندارد داخلی می‌تواند به کاهش زمان ارزش گذاری کمک کند و علاوه بر این، پیاده سازی آن دشواری کمتری را به دنبال خواهد داشت. این خط مشی‌های داخلی، متمرکز بر داده‌هایی با کاربردهای سنتی هستند. کاربردهای غیراستانداری همچون جستجوی مالکیت معنوی که البته می تواند منجر به افزایش پیچیدگی شود.

عوامل مخاطره آفرین برای DLP

DLP در اصل برای هشدار دادن به سازمان‌ها در رابطه با سوءاستفاده‌های ناخواسته از داده‌ها توسط کارمندان طراحی شده است. هدف از آن، شناسایی تهدیدهای داخلی غیرمخرب است. چنین تهدیدهایی اغلب در مواقعی انجام می شوند که کارمندی با سطح دسترسی مناسب به داده‌ها، سهواً اما با اهداف غیربدخواهانه از داده‌ها سوءاستفاده (استفاده نادرست) کرده و منجر به نقض فرایندها یا خط مشی های حاکمیت داده می‌شود.

به عنوان مثال، فرض کنید کارمند X داده‌های طبقه‌بندی شده را بر روی یک رسانه ذخیره سازی قابل حمل (USB) متعلق به خودش ذخیره می‌کند تا بتواند کارهایش را در منزل انجام دهد. بر اساس خط مشی‌های استاندارد حاکمیت داده، کارمندان اجازه ندارند داده‌های طبقه‌بندی شده را بر روی دارایی‌های طبقه‌بندی نشده کپی کرده یا بر روی سیستم‌های غیرسازمانی کپی یا تغییر دهند.

با گذشت زمان و پیشرفت فناوری، کاربردهای DLP هم تکامل پیدا کرده است. موارد به خطر افتادن امنیت شبکه و سیستم که منجر به نشت داده توسط کاربران خرابکار می‌شوند، در سال های اخیر افزایش چشمگیری پیدا کرده است. این رشد بالا، نشان دهنده نیاز به ارزیابی دوباره ویژگی های افراد خطرناکی است که به دنبال دسترسی غیرمجاز، سرقت، افشا، تخریب یا نابودن کردن داده‌ها هستند. این ارزیابی مجدد، منجر به تعریف دو نوع عامل خطر می‌شود که عبارتند از عوامل مخرب داخلی و بیرونی.

منظور از عامل مخرب داخلی، کارمندی است که به دنبال نقض خط مشی حاکمیت داده است. دلایل مختلفی برای این رفتار وجود دارد، ممکن است کارمند اخراج شده باشد، از این که به زودی کاهش رتبه پیدا می‌کند مطلع شده یا شخص دیگری وی را متقاعد به سرقت داده‌های سازمانی کرده باشد.

عامل مخرب بیرونی، با سازمان در ارتباط نیست. مخاطرات ناشی از افراد بیرونی می‌تواند از سوی رقبا، دشمنان یا افرادی ایجاد شود که قصد فروش داده‌های آن سازمان را دارند.

ممکن است تهدیدهای بیرونی حتی به دنبال این باشند که سازمان‌ها را وادار به توقف فعالیت های کسب وکاری فعلی کرده یا بر تصمیم گیری‌های آنها تأثیر بگذارند. چند نمونه از این موارد، عبارتند از تلاش برای پیشگیری از انتشار فیلمی توسط شرکت سونی پیکچرز که گروه‌هایی خاص آن را ناپسند می‌دانستند یا حمله به وب سایت اشلی مدیسون که در این حمله مهاجمان خواهان توقف عملکرد این سایت بودند.

این سبک حملات، جزو فعالیت‌های «هکتیویستی» محسوب می‌شود. طبقه‌بندی عوامل بیرونی می‌تواند طبق باورها و عقاید افراد دخیل متفاوت باشد. در هر صورت، حفظ حریم خصوصی مطابق با قانون، یک عامل مهم برای بیشتر سازمان ها و صاحبان مشاغل است.

استقرار فناوری جلوگیری از نشت داده‌ها (DLP)

تصمیم گیری‌های صورت گرفته در رابطه با اجزای تشکیل دهنده راهبرد DLP، تأثیر مستقیمی بر پیاده سازی فناوری دارد. پیاده سازی فناوری DLP، متمرکز بر 3 عنصر کلیدی است:

الف) قابلیت مشاهده
ب) بازرسی
پ) واکنش در هنگام شناسایی

الف) قابلیت مشاهده

امکان تشخیص، با توجه به قابلیت مشاهده و درک یا شناسایی محتوا تعیین می‌شود. بدون دستیابی به هر دوی این اهداف، بازرسی DLP غیرممکن است.

قابلیت مشاهده در استقرار راهکار DLP بیانگر آن است که این برنامه، دسترسی کاملی به جایی که قرار است داده ها در آن بازرسی شوند را داشته باشد. در ابتدا، راهبر DLP مشخص می‌کند که داده‌های حساس کجا استقرار یافته اند و چه قابلیت‌هایی برای بازرسی وجود دارد. سه روش برای بازرسی وجود دارد که عبارتند از:

اسکن داده‌هایی که در حالت استراحت هستند.
اسکن داده‌هایی که در شبکه در حال حرکت هستند.
اسکن داده‌ها در نقاط انتهایی شبکه.

برای اسکن کردن داده‌های در حال استراحت، یک بخش از برنامه DLP نزدیک داده‌های حساس قرار گرفته و شروع به جستجوی محتوای حساس می‌کند. این پلتفرم‌های اسکن عموماً متمرکز بر محل‌های به اشتراک گذاری داده‌ها در شبکه، ذخیره طولانی مدت داده‌ها، پشتیبان‌های پایگاه داده یا محل‌های ذخیره آرشیو هستند. در رابطه با اسکن داده‌های در حال استراحت، دو موضوع اهمیت زیادی دارد:

پیامدهای منفی شبکه، گاهی وقت ها در بخش هایی هستند که اسکن در آنجا انجام می‌شود. ممکن است اسکن داده‌های در حال استراحت، نسبت به اسکن آسیب پذیری ها نیازمند دقت و زمان بیشتری باشد.
درک راهبردهای پشتیبان گیری و مدیریت رکوردها کلیدی است زیرا اسکنر داده‌های در حال استراحت، به صورت پیشفرض فایل‌ها را باز کرده یا تاریخ‌های “last modified” را ویرایش می‌کند. بنابراین ممکن است چنین کاری منجر به ایجاد مغایرت بین راهکارهای پشتیبان گیری و اسکن دوره‌ای DLP شود.

اسکن داده‌های در حرکت در شبکه، یکی از قابلیت‌های بازرسی DLP است که به قسمتی از پلتفرم DLP امکان می‌دهد پروتکل‌های مبتنی بر شبکه که قادر به انتقال داده‌ها در پی‌لود هستند را بررسی کند. برای همگام ماندن با سرعت شبکه، برخی از این اجزا به گونه‌ای توسعه داده شده‌اند که بر پروتکل‌های محدودی متمرکز شوند؛ به عنوان مثال DLP مخصوص ایمیل بر پروتکل ساده نامه‌رسانی[3] (SMTP)، پروتکل POP3[4] نسخه 3 و پروتکل IMAP[5] تمرکز دارد.

سایر بخش‌های مبتنی بر شبکه DLP فقط بر بازرسی پروتکل‌های پرخطر قادر به انتقال داده متمرکز هستند، مثل پروتکل انتقال فایل[6] (FTP) و پیام رسانی فوری[7] (IM). بخش‌های مختلف DLP شبکه را می توان به صورت درون خطی معماری کرد تا بین جریان داده قرار گیرند (یعنی محتوا به داخل آنها جریان پیدا کرده و سپس به سمت رابط کاربری مجزایی هدایت می‌شود) یا می‌توان آنها را خارج از محیط مورد بازرسی قرار داد.

برای طراحی درست معماری DLP مبتنی بر شبکه باید چند نکته را در نظر داشت. استقرار پلتفرم‌های بازرسی DLP را میتوان به صورت درون خطی یا در حالت Tap طراحی کرد. در هر دو روش، بازرسی به یک صورت انجام می‌شود اما قابلیت‌های واکنش در این دو حالت بسیار متفاوت هستند.

حالت درون خطی، نیاز به دو رابط کاربری یعنی برای هر طرف ارتباط، یکی دارد. برای این که بین دو سیستم ارتباط انجام شود نشست باید از تجهیزات DLP عبور کند. در هنگام عبور از این تجهیزات می‌توان از طریق خط مشی‌ها نشست را بررسی کرد تا محتوای غیرمجاز شناسایی شود. اگر محتوای غیرمجازی وجود داشت، تجهیزات DLP می‌تواند تمام روش‌های واکنشی را مورد استفاده قرار دهد.

حالت Tap نیاز به یک رابط کاربری واحد دارد که یک کپی از داده‌ها برای بازرسی بیشتر به آن ارسال می‌شود. از آنجایی که در این حالت؛ نشست وارد تجهیزات نمی‌شود، امکان استفاده از سازوکارهای عکسالعمل مثل قطع ارتباط درون این تجهیزات وجود دارد. دو سازوکار واکنشی کلی در این روش وجود دارد؛ برای ارتباطات مربوط به پروتکل کنترل انتقال[8] (TCP) می‌توان یک ریست (reset) تنظیم کرد تا ارتباط قطع شود. دومین واکنش ممکن که توانایی کمتری دارد، ارسال یک flag به دستگاه Tapping است که نشان دهد یک تخلف اتفاق افتاده است. این کار باعث می‌شود که اگر پیکربندی دیگری روی دستگاه Tapping وجود داشته باشد، این تخلف را مدیریت کند.

در رابطه با نحوه استقرار و پیادهسازی، یک موضوع چالش برانگیزتر هم وجود دارد. امروزه میزان ترافیک رمزنگاری شده در مقایسه با ترافیک رمزنگاری نشده، به بیش از 90 درصد رسیده است. برای بازرسی درست و کارآمد ترافیک رمزنگاری شده توسط تجهیزات DLP نیاز به انجام یک گام دیگر هم وجود دارد؛ یعنی باید پیلود این ارتباطات رمزگشایی شود.

رمزگشایی ترافیک شبکه از دو جنبه مهم چالش برانگیز است؛ از لحاظ ظرفیت و حریم خصوصی. برای رمزگشایی ترافیک به صورت بلادرنگ و لحظه‌ای جهت بازرسی، نیاز به یک سری نرم افزارهای تخصصی وجود دارد که برای رمزگشایی و رمزنگاری دوباره طراحی شده‌اند. این فرایند ممکن است به دلیل اضافه شدن پردازش‌های مازاد، منجر به افزایش 2 تا 3 برابری تأخیر شود.

در رابطه با نوع داده‌هایی که رمزگشایی می‌شود، چالش حریم خصوصی هم وجود دارد. ممکن است کاربران شبکه هنگام انجام تراکنش‌های بانکداری آنلاین یا مشاهده اطلاعات حساس حوزه مراقبت‌های بهداشتی، انتظار حفظ حریم خصوصی را داشته باشند. اتحادیه اروپا و کانادا، سیاست‌ها و مقررات سنگین‌تری برای محافظت از شهروندان دارند. به همین دلایل مرتبط با حریم خصوصی لازم است نهادهای قانونی در مراحل اولیه و در بحث‌های مربوط به معماری پلتفرم DLP مشارکت داده شوند.

سومین بخش از قابلیت مشاهده در مرحله شناسایی، اسکن کردن داده‌ها در نقاط انتهایی شبکه است. این بخش، تفاوت چشمگیری با دو بخش قبلی دارد. این راهکار که بر روی نقاط انتهایی پیاده سازی می‌شود، ماهیت نرم افزاری داشته و امکان مشاهده کامل از سیستمی که نرم افزار جلوگیری از نشت داده (DLP) روی آن نصب شده است را دارد. برای فراهم کردن قابلیت مشاهده، عامل[9] DLP نقاط انتهایی باید هم دسترسی کاملی به پشته شبکه داشته (بسیار شبیه به DLP شبکه) و هم به نقطه انتهایی نیز دسترسی سطح فایل داشته باشد.

ممکن است شناسایی داده‌های حساس در نقاط انتهایی، نیاز به درک داده‌های ساخت یافته و بدون ساختار داشته باشد. تمرکز تشخیص‌های غیرساخت یافته بر روی داده‌های حساس موجود در اسناد متنی و روش‌های مختلف دستکاری اسناد و داده‌ها است. کپی کردن، پیست کردن، ذخیره به صورت یک فایل متفاوت و رمزگشایی، برخی از دستکاری‌هایی هستند که عامل DLP باید در هنگام انجام بازرسی‌ها آنها را نیز ارزیابی کند.

بازرسی داده‌های ساخت یافته حساس، مبتنی بر برنامه‌های کاربردی مورد استفاده کاربران است. افزایش استفاده از برنامه‌های کاربردی وب، منجر به افزایش نیاز به این روش‌های بازرسی مختلف شده است. به دلیل قابلیت تکرار فرایند، مقادیر ثابت و ماهیت توزیع شده بازنشر (به اشتراک گذاری)، این داده‌ها ساخت یافته هستند. افزایش تعداد کاربران دستگاه‌های تلفن همراه هم موجب افزایش مخاطره نشت داده‌های ساخت یافته حساس شده است زیرا مالکان برنامه‌های کاربردی، نسخه‌های مخصوص تلفن همراه از این برنامه‌ها منتشر می‌کنند که در دستگاه‌های غیرسازمانی مورد استفاده قرار گرفته و امکان دسترسی به داده‌ها را فراهم می‌کنند.

ب) قابلیت‌های بازرسی

وقتی قابلیت مشاهده برای شناسایی فراهم شد، نوبت به قابلیت‌های بازرسی می‌رسد. نصب و استقرار درست روی شبکه یا نقاط انتهایی با قابلیت شناسایی حرکت یا کار با داده‌ها متفاوت است. یک مثال مفید در این خصوص، شخصی است که قادر به مشاهده است (قابلیت مشاهده برای بازرسی) و اطلاع دارد که باید به دنبال چه فردی باشد (قابلیت بازرسی).

قابلیت بازرسی برای DLP دو دسته بندی کلی دارد؛ بازرسی زمینه و بازرسی محتوا. داده‌هایی که بر اساس زمینه بازرسی می‌شوند، با توجه به موقعیت، کاربردهای برنامه کاربردی یا کاربران توصیف می‌شوند. می‌توان بازرسی زمینه را مثل ابرداده‌ها برای داده‌های باینری واقعی در نظر گرفت. ابرداده به داده‌هایی گفته می‌شود که یک داده دیگر را توصیف می‌کنند.

محل حساس داده‌ها، در واقع داده نیست بلکه مسئولیت بازرسی زمینه، اطمینان از این امر است که داده‌ها از یک محل حساس جابه جا و منتقل نمی‌شوند. یک مثال دیگر از این موضوع، سندی است که یک برچسب متای مرتبط به آن ضمیمه شده تا بازرس زمینه بتواند داده را مطابق با خط مشی تنظیم شده مدیریت کند.

داده‌های بازرسی شده طبق محتوا، توسط برچسب یا نشانه گذاری، تطبیق دقیق داده (EDM[10])، تطبیق سندهای اندیس گذاری شده[11] (IDM) و تطبیق رشته داده توصیف می‌شوند. همچنین بازرسی داده را می توان به دو صورت با پیچیدگی کم و با پیچیدگی زیاد انجام داد. روش بازرسی داده با پیچیدگی کم، یک روش بازرسی است که در آن از برچسب، کلمه های کلیدی، عبارت های منظم یا سایر شرایط و قوانین ساده استفاده می‌شود.

بازرسی محتوا با پیچیدگی کم، تأثیرات کمتری بر کارایی داشته و به فعالیت‌های ناهنجار انجام گرفته بر روی محتوا توجهی نمی‌کند. برچسب گذاری یا نشانه گذاری، روشی برای تشخیص سریع محتوای حساس از محتوای غیرحساس است. برچسب یا نشانه گذاری خود داده، با تگ‌های متایی که در بازرسی زمینه مورد استفاده قرار می‌گیرند متفاوت است. چالش برچسب یا نشانه گذاری، حفظ کردن این برچسب‌ها و نشانه‌ها در کل چرخه عمر داده است. لحظه‌ای که پردازش محتوا باعث حذف یک نشانه یا برچسب شود، قابلیت بازرسی محتوای DLP از بین می‌رود مگر این که پلتفرم بازرسی DLP طوری طراحی شده باشد که داده حین پردازش، ماندگار بماند که لزوماً این شرط در هر جایی برقرار نیست.

EDM از این اطلاعات که محتوا در یک پایگاه داده یا یک فرمت رابطه‌ای یا جدولی دیگر اندیس گذاری شده، استفاده می‌کند. EDM یک روش بازرسی محتوا برای داده‌های ساخت یافته است. IDM یک روش بازرسی محتوا برای داده‌های بدون ساختار است که تمرکز آن اندیس گذاری سندهایی است که در قالب پایگاه داده یا سایر روش‌های سازماندهی شده و تکرارپذیر قرار ندارند. تفاوت IDM با EDM این است که پلتفرم DLP (در روش IDM) باید همه یا بخشی از اجزای حساس سند را در اختیار داشته باشد تا تطبیق را بررسی کند زیرا (در غیر این صورت) منبع، مثل EDM ناشناس خواهد بود.

تطبیق داده برای تشخیص این که چه بخش‌هایی از محتوا حساس است، به پیکربندی DLP بستگی دارد. یک مثال متداول، جستجوی عددهای مربوط به کارت اعتباری است. یک مثال از عبارت منظم (Regex)، در شکل شماره 1 نشان داده شده است.

شکل 1: مثالی از تطبیق داده‌ها با استفاده از عبارت های منظم

شماره کارت بیشتر شرکت‌های صادر کننده کارت اعتباری به این صورت است که با یکسری عددها و رقمهای ثابت شروع می‌شود و بعد از آن هم یکسری ارقام متغیر با علایم متفاوت قرار می‌گیرد. تطبیق عبارت های منظم، این امکان را فراهم می‌کند که در بازرسی محتوا از منطق و الگوها استفاده شود تا بتوان بین داده‌های حساس و غیرحساس تمایز قایل شد.

علاوه بر قالب‌های استاندارد کارت اعتباری، صادرکنندگان کارت اعتباری از الگوریتمی به نام Luhn استفاده می‌کنند تا به صورت خودکار، عددهای معتبر برای صدور کارت اعتباری را تعیین کنند. در واقع ترکیب تشخیص بر اساس عبارت های منظم و اعتبارسنجی با الگوریتم Luhn به پلتفرم‌های بازرسی DLP امکان می‌دهد با تعیین مجموعه ای از اعداد که منطبق با یک الگو هستند، تشخیص‌های مثبت کاذب را کم کنند.

بازرسی محتوای پیچیده، بیشتر با قابلیت کاراکترخوان نوری[12] (OCR) در ارتباط است. یک پلتفرم DLP که قادر به بازرسی OCR باشد می‌تواند در عکس های با قالب‌های مختلف، بازرسی محتوا با پیچیدگی کم را انجام دهد. یک مثال از این موضوع، باز شدن داده‌های حساس در یک نقطه انتهایی مجاز و معتبر از شبکه با نرم افزار مایکروسافت ورد است. سپس کاربر وقتی سند باز است یک اسکرین شات گرفته و فایل را با قالب PNG ذخیره می‌کند. روش‌های بازرسی محتوا با پیچیدگی کم، قادر به تشخیص محتوای حساس داخل فایل PNG نیستند؛ چه قابلیت مشاهده برای تشخیص روی نقاط انتهایی نصب شده باشد یا شبکه و یا هر دوی آنها.

در بازرسی OCR از قواعد مخصوص محتوایی با پیچیدگی کم برای تشخیص داده‌های حساس درون فایل PNG استفاده می‌شود. ماهیت بازرسی OCR پیچیده به گونه‌ای است که نیاز به حافظه‌ای با ظرفیت بالا و قدرت پردازش زیاد دارد. به همین دلیل استفاده از OCR در قابلیت تشخیص برای شناسایی به ندرت صورت می‌گیرد. در واقع OCR نمی‌تواند تشخیص را به صورت بلادرنگ و لحظه‌ای انجام دهد.

پ) واکنش به تشخیص

روش‌های واکنشی، اقدام هایی هستند که می‌توان برای پیشگیری از بازنشر غیرمجاز داده‌ها انجام داد. هشدار وقوع یک حادثه برای مقابله با سرقت داده‌ها به تنهایی کافی نیست زیرا ممکن است هنگامی که بررسی رویداد انجام می‌شود، مهاجم رخنه مورد نظر را انجام داده باشد.

روش‌های واکنشی بسته به این که آیا مطلوب است مهاجم متوجه شود، اقدام های او تحت نظارت قرار دارند و غیرمجاز هستند یا خیر متفاوت هستند. به عنوان مثال، مسدود کردن عمل خروج داده‌ها باعث می‌شود مهاجم متوجه شود از عمل او برای سرقت داده‌ها جلوگیری شده و بنابراین ممکن است نتواند عملیات خروج داده مورد نظر را انجام دهد. هر چند این مسدود کردن فوق العاده کارآمد است اما موجب ایجاد دو سناریوی متداول زیر می‌شود:

ممکن است مهاجم سعی کند حمله را به روش‌های دیگری انجام دهد.
تحلیلگر DLP نمی‌تواند اطلاعات لازم درباره مهاجم را جمع آوری کند.

برای پیشگیری از این شرایط، روش‌های واکنشی بدون مسدود کردن اقدام معرفی شده‌اند که عبارتند از تغییر، پاکسازی و تحریف داده‌ها. این روش‌ها اطمینان می‌دهند داده‌ای به دست مهاجم می‌رسد که بی استفاده شده است. هدف این روش‌ها، محافظت از داده‌ها به گونه‌ای است که مهاجم از تلاش برای خروج داده‌ها منصرف نشود؛ تلاش‌های بعدی برای جمع آوری تاکتیک‌ها، روش‌ها و رویه‌های[13] (TTP) مورد استفاده مهاجم مفید است و می‌توان این اطلاعات را در سایر پلتفرم‌های امنیتی به عنوان شاخص‌های نشان دهنده به خطر افتادن[14] (IOC) در نظر گرفت.

در روش تغییر داده‌ها، از روش پوشش بیتی استفاده می‌شود. پوشش بیتی، یک روش واکنشی است که در آن از عملیات AND، NOT و OR برای تغییر داده‌های اصلی و تولید یک مقدار متفاوت استفاده می‌شود. از پوشش بیتی در فشرده سازی داده‌ها و طراحی‌های گرافیکی جهت کاهش اندازه فایل ها نیز استفاده می‌شود اما تفاوت آن در این نکته است که اینجا برنامه کاربردی ارسال کننده، از عملیات پوشش بیتی اطلاع دارد و برنامه کاربردی دریافت کننده می‌تواند با معکوس کردن این عملیات، به فایل اصلی دست پیدا کند.

DLP از روش تغییر داده برای تغییر داده‌ها در سطح باینری استفاده می‌کند به صورتی که نتیجه نهایی برای مهاجم، قابل تحلیل یا قابل خواندن نیست. خطر چنین روشی این است که ممکن است مهاجم بتواند برای بازیابی داده‌های اصلی از الگوریتم‌های معکوس سازی استفاده کند. در اصلاح داده‌ها می‌توان یکسری داده‌های بلااستفاده که از قبل مشخص شده‌اند را هم به داده‌های اصلی تزریق کرده و یکسری از بیت‌ها را بارها و بارها بازنویسی کرد. معکوس کردن این عملیات سخت‌تر است به این دلیل که نمی‌توان پیش بینی کرد چه داده‌هایی بین داده‌های اصلی تزریق شده‌اند.

هدف در پاکسازی داده‌ها، محتوایی خاص از یک مجموعه داده بزرگتر است. این داده‌ها که شامل حداقل داده‌های حساس هستند، حذف می‌شوند. استفاده از این روش واکنشی نشان می‌دهد که مهاجم شناسایی شده است.

تحریف (معیوب سازی) داده‌ها همانطور که از نام آن مشخص است، واکنشی است که منجر به ایجاد نقص و عیب در داده‌ها می‌شود. این روش، ترکیبی از تغییر و پاکسازی داده‌ها است.

اقدام و عمل کردن در هنگام وقوع یک رویداد DLP، هدف نهایی یک برنامه DLP است. رشد سریع حجم داده‌ها و تغییر فرایندهای کسب وکاری باعث شده دستیابی به این روش‌های واکنشی فوق العاده سخت شود. روش‌های واکنشی نیاز به بازبینی دایم خط مشی‌های تریگرکننده رویداد و واکنش‌های بعد از آن در هنگام وقوع تغییرات در سازمان دارد تا از اختلال در کار و صدور هشدارهای مثبت کاذب پیشگیری کنند.

تشخیص و خروج

در ادامه، یک روش نشت داده که در مقاله اکتبر 2014 در سایت Dark Reading تشریح شد را بررسی می‌کنیم. در این مقاله، هویت سازمانی که خروج داده‌ها از آن صورت گرفته است، مشخص نشده اما این مقاله سطح بالای روش‌های مورد استفاده برای مبهم کردن عملیات و مقابله با تشخیص را نشان می‌دهد.

وقتی مهاجمان به سیستم مورد نظر دسترسی پیدا کردند، از «قطعه بندی» استفاده می‌کنند تا ابتدا بتوانند داده‌ها را بخش بندی کنند. پس از بخش بندی، بخش‌های کوچکتر رمزنگاری می‌شود. رمزنگاری با این هدف صورت گرفته تا سازمان نتواند داده‌های اصلی را تشخیص دهد. در نهایت، این داده‌های رمزنگاری شده به صورت یک قالب ویدیویی درآمدند تا سیستم بازرسی از این فایل‌هایی که نوع آنها تغییر کرده مطلع نشود.

مهاجم پس از خروج داده‌ها شناسایی شد و شاخص اصلی که نشان داد این اتفاق به وقوع پیوسته، یکسان بودن تمام بخش‌های ویدیو بود. پروتکل‌های ویدیویی معمولاً حین انتقال فایل، آن را به قطعاتی با اندازه یکسان تقسیم نمی‌کنند. این مثال، نشان دهنده پیچیدگی و چندلایه بودن روش‌های خروج داده است که تحلیلگر DLP باید برای آن برنامه ریزی کند و سناریوهای مختلف پیاده سازی فناوری را برای مقابله با این روش‌ها ارزیابی کند.

الف) تشخیص درون خطی خروج داده‌ها

روش‌های مبتنی بر خط مشی، بر اساس خط مشی‌های تنظیم شده در فناوری تشخیص انجام می‌شوند. این سناریوی آزمایشی شامل دو کلاینت می‌شود (کلاینت A و کلاینت B) که هر یک در یک سوی پلتفرمی قرار دارند که خط مشی در آنجا پیکربندی می‌شود. پروتکل انتقال داده‌ها، بلوک پیام ساده[15] (SMB) است؛ یک پروتکل ویندوزی برای انتقال داده‌ها به صورت بدون رمزنگاری.

خط مشی در این سناریو به گونه‌ای طراحی شده است تا وقتی یک شماره تأمین اجتماعی[16] (SSN) در استریم داده وجود داشته باشد، از انتقال فایل جلوگیری کند. بازرسی به صورت درون خطی انجام می‌شود. بنابراین می‌توان روش واکنشی مسدود کردن را در این روش استفاده کرد.

در شکل‌های 2 تا 9، دیاگرام و گام‌های پیکربندی خط مشی را مشاهده می‌کنید. این دیاگرام، محلی از شبکه که در آن بازرسی انجام می‌شود را نشان می‌دهد.

شکل 2: دیاگرام سناریوی درون خطی تشخیص SSN

در روش تعریف الگوی داده، از مالکیت معنوی پلتفرم امنیتی جهت شناسایی SSN در استریم داده‌ای شبکه استفاده می‌شود. در قسمت Weight می‌توان یک آستانه حداقلی تنظیم کرد تا هنگامی که عدد مورد نظر از آن بیشتر شد، واکنش لازم صورت گیرد.

پروفایل فیلتر داده، به دنبال ترافیکی با الگوی از پیش تعریف شده است. همه برنامه‌های کاربردی و تمامی انواع فایل‌ها به صورت دوطرفه مورد بازرسی قرار می‌گیرند. واکنش‌های هشداردهی و مسدودسازی، هر دو تنظیم شده‌اند و مسدودسازی اولویت دارد.

سپس قانون خط مشی امنیتی به نقاط ورودی و خروجی خاصی از شبکه جهت بازرسی اعمال می‌شود. در این پیکربندی، فیلترینگ داده ها روی حالت “SSN Profile” تنظیم می‌شود. این کار اطمینان می‌دهد که قانون خط مشی امنیتی متوجه می‌شود که نه تنها منبع و مقصد در مجاز دانستن یا رد کردن ترافیک تأثیر دارد بلکه محتوا نیز مورد بازرسی قرار می‌گیرد.

شکل 5: خط مشی امنیتی با پروفایل فیلترینگ داده

در ادامه؛ محتوای فایل، موقعیت فعلی فایل آزمایشی و مقصد مورد نظر برای کپی فایل را مشاهده می‌کنید. یک پیام خطا به کاربر نمایش داده می‌شود مبنی بر این که فایل قابل کپی نیست.

بررسی فایل‌های لاگ، تلاش برای برقراری ارتباط را همراه با پورت و پروتکل (برنامه کاربردی)، فایل مربوطه و اقدام واکنشی انجام شده نشان می‌دهد.

ب) تشخیص SPAN/TAP خروج داده

نحوه استقرار شبکه برای سناریوی آزمایشی، در شکل شماره 10 نمایش داده شده است. پلتفرم بازرسی DLP خارج از رابط کاربری شبکه تحلیلگر پورت نشست (SPAN) قرار گرفته است. پورت SPAN به نحوی پیکربندی شده است تا ترافیک دوطرفه مشاهده شده در رابط کاربری که کلاینت A به آن متصل شده است را کپی کند. سپس ترافیک کپی شده، به خارج از رابط کاربری SPAN و به سمت پلتفرم بازرسی DLP هدایت می‌شود. بنابراین قابلیت مشاهده ترافیک به صورت خارج از مسیر را فراهم می‌کند.

یک فایل ورد متنی با داده‌های SSN از کلاینت A به مسیر http://contentiqtest.com آپلود می‌شود. پلتفرم بازرسی DLP با محتوا، قواعد و خط مشی مورد نیاز برای تشخیص، پیکربندی شده و اگر در شبکه SSN مشاهده شود، هشدار می‌دهد. وب سایت Contentiqtest.com یک سایت رایگان حاوی انواع فایل‌های تستی برای ارزیابی قواعد و خط مشی‌های DLP است. این سایت برای انتقال داده‌ها از رمزنگاری استفاده نمی‌کند.

پیکربندی محتوا، قواعد و خط مشی‌ها با آن چه در سناریوی درون خطی قبلی مشاهده شد، متفاوت است. این پلتفرم بازرسی DLP با پلتفرمی که در شکل شماره 2 نمایش داده شده است، تفاوت دارد و امکان پیکربندی بیشتری را فراهم می‌کند. یکی از تفاوت‌های این دو پلتفرم، میزان قوی بودن پیکربندی است. Gartner تمایل دارد که پلتفرم سناریوی درون خطی DLP، سبک باشد و نمی‌توان قابلیت‌های بازرسی جزیی را برای این حالت پیکربندی کرد.

شکل 10: دیاگرام سناریوی SPAN/TAP جهت تشخیص SSN

پروفایل بازرسی محتوا یکی از جنبه‌های پیکربندی لازم برای بررسی محتوا توسط قوانین DLP است. محتوای Identity Profile برای شناسایی SSN با قالب‌های مختلف (مثلاً مواردی که با خط تیره، بدون خط تیره، با فاصله یا بدون فاصله هستند) به عبارت های از پیش تنظیم شده وابستگی دارد. یک نمونه از تفاوت‌های بین پلتفرمی با DLP کامل و پلتفرم سبک وزنDLP ، قابلیت بازرسی محتوا برای تشخیص این موضوع است که لزوماً تمام ترکیب‌های 9 رقمی (برای SSN در آمریکا) SSN نیستند. مثلاً شماره 123456789 در آمریکا یک شماره تأمین اجتماعی معتبر نیست و منجر به تشخیص مثبت کاذب در پلتفرم‌های DLP Lite می‌شود.

سپس این پروفایل تشخیص، با قوانین و بعد خط مشی ارتباط داده می‌شود و اگر محتوایی مربوط به SSN در آن وجود داشته باشد، یک هشدار ایجاد می‌شود تا به تحلیلگر DLP درباره وقوع حادثه اطلاع رسانی کند.

شکل 12: یک قانون که از عبارت پروفایل بازرسی محتوا استفاده می‌کند.

سپس این قانون به حسگری که قرار است بازرسی در آن انجام شود، اعمال می‌شود.

شکل 14: آپلود داده‌های SSN به ContentIQTest

سپس کلاینت A به http://contentiqtest.com متصل شده و سعی می‌کند فایل ورد حاوی SSN را آپلود کند، همان محتوایی که در شکل شماره 21 مشاهده می‌شود. در ادامه مشاهده می‌کنید که یک حادثه سطح بالا ایجاد شده است.

با انتخاب کردن گزینه “Alert Summary” می‌توان اطلاعات بیشتری را درباره حادثه مشاهده کرد. امکان نمایش این اطلاعات یکی دیگر از تفاوت‌های قابلیت‌های بازرسی DLP کامل با راهکارهای DLP Lite است؛ از این جهت که محتوایی که باعث تریگر شدن حادثه شده، برای تحلیل آسانتر و تشخیص مثبت‌های کاذب از مثبت‌های درست نمایش داده می‌شود. مثال مربوط به سناریوی درون خطی، منجر به تریگر شدن حادثه و مسدود شدن فایل شد اما اطلاعات و شواهد کمی در پلتفرم DLP Lite برای تشخیص وجود دارد.

پ) تشخیص رمزنگاری SSL خروج داده‌ها

در این بخش، پروتکل SSL که یک پروتکل انتقال داده رمزنگاری شده است، به سناریوی تست SPAN/TAP قبلی اضافه می‌شود. SSL به عنوان یک پروتکل رمزنگاری، منجر به ایجاد یک چالش اضافه برای بازرسی DPL می‌شود. امکان بازرسی بدون دسترسی به پی لود رمزگشایی شده وجود ندارد. در این سناریوی آزمایشی، سازوکار رمزگشایی SSL هم اضافه شده و ترافیک SSL رمزگشایی شده به سمت پلتفرم بازرسی DLP هدایت می‌شود.

اضافه شدن کانال ارتباطی رمزنگاری شده، منجر به ایجاد مفهوم خروج داده به روش مخفی یا آشکار می‌شود. در خروج آشکار، داده‌ها به صورتی خارج می‌شود که قابل مشاهده هستند. در روش مخفی سعی می‌شود این کار به شکلی انجام شود که به آسانی قابل شناسایی نباشد و گاهی به صورت ترافیک رمزنگاری شده انجام می‌شود.

تغییر معماری، در دیاگرام بعدی نمایش داده شده که قابلیت رمزگشایی SSL به صورت درون خطی با ترافیکی که قرار است بازرسی شود را نمایش می‌دهد.

شکل 17: دیاگرام تشخیص رمزگشایی SSL خروج داده‌ها

سعی می‌شود همان سند ورد که در سناریوی SPAN/TAP استفاده شد، به مسیر https://dataleaktest.com آپلود شود. این سایت امکان استفاده از SSL رمزنگاری شده را به صورت پروتکل فراهم کرده است.

خلاصه هشداری که در ادامه نمایش داده شده، نشان می‌دهد در فایلی که در حال انتقال بوده یک SSN شناسایی شده است. این حادثه با بررسی جزییات هشدار، به راحتی قابل تأیید است. این سناریو نشان می‌دهد که تشخیص خارج از مسیر DLP منجر به ارسال داده‌های رمزنگاری نشده از پلتفرم رمزگشایی و انتقال SSL شده است، چرا که در غیر این صورت بازرسی انجام نمی‌شد.

شکل 18: خلاصه هشدار – قابلیت مشاهده SSL (فقط هشدار)

ج) رمزگشایی SSL خروج داده – دور زدن تشخیص عکس

در آخرین سناریو، از تمامی قابلیت‌های تست رمزگشایی و انتقال SSL قبلی استفاده می‌شود. تنها تفاوت اینجا است که سند ورد حاوی SSN معتبر تأیید شده، تبدیل به یک فایل تصویری PNG شده است. این آزمایش، ناتوانی پلتفرم DLP Network Based برای بازرسی فایل‌های OCR جهت تشخیص وجود الگو یا محتوا را نشان می‌دهد.

OCR منجر به مصرف بسیار زیاد منابع می‌شود و برای پلتفرم‌های بازرسی DLP مبتنی بر شبکه توصیه نمی‌شود. از OCR در پلتفرم‌های بازرسی DLP آفلاین و نقاط انتهایی استفاده می‌شود. آپلود با موفقیت انجام می‌شود و شواهدی از ترافیک شبکه موجود است. به دلیل عدم وجود امکان بازرسی OCR، نقض خط مشی گزارش نشده است.

شکل 22: ترافیک تشخیص داده شده – قابلیت بازرسی OCR یا هشداردهی وجود ندارد.

در این سناریو، داده‌های حساس با موفقیت از داخل سازمان به یک نهاد بیرونی ارسال شده است.

نتیجه گیری

برای موفقیت برنامه‌های DLP نیاز به ارزیابی، ارزیابی‌های مجدد، تعریف موارد استفاده و تست و آزمایش وجود دارد. تعریف و آشنایی با روش‌های تحقیقاتی برای قابلیت مشاهده DLP، تشخیص و پیشگیری جزو فعالیت‌های همیشگی و ثابت تحلیلگران و راهبران DLP است. بهبود مداوم برنامه، با توجه به نرخ ایجاد سیستم‌های کسب وکاری دارای داده‌های حساس، تکامل روش‌های پیچیده خروج داده، پیشرفت‌های مداوم پروتکل‌ها و توسعه برنامه‌های کاربردی انجام می‌شود. بهبود برنامه، راهبر DLP را به چالش می‌کشد تا محیط فناوری اطلاعات سازمان را بررسی کرده، داده‌های حساس را تعریف و مشخص کند چگونه می‌توان به بهترین شکل ممکن، پردازش داده‌های حساس را شناسایی کرد.

در این مقاله، فقط بر جنبه «داده‌های در حرکت» DLP پرداخته شد. برای تعریف و آزمون سناریوهای مختلف، نیاز به کارهای بیشتری وجود دارد. باید تحقیقاتی مشابه برای بررسی داده‌های در حال استراحت و داده‌های روی نقاط انتهایی انجام شود.

[1] Data Loss Prevention
[2] short message service
[3] Simple Mail Transfer Protocol
[4] Post Office Protocol
[5] Internet Message Access Protocol
[6] File Transfer Protocol
[7] Instant Messaging
[8] Transmission Control Protocol
[9] Agent
[10] Exact Data Matching
[11] Indexed Document Matching
[12] Optical Character Recognition
[13] Tactics, Techniques And Procedures
[14] Indications Of Compromise
[15] Simple Message Block
[16] Social Security Number