DDH

Degraded Device Handling (DDH) در vSAN چگونه عمل میکند ؟

Degraded Device Handling(DDH)  که بعضی جاها Dying Disk Handling هم گفته میشود یکی دیگر ازقابلیتهای هوشمند vSAN است که به مرور زمان کاملتر شده . اگر بخواهیم دریک جمله کاراصلی DDH بگیم ، DDH  باعث میشه زمانیکه یک Unhealthy Device (مثلا یکی از دیسکها دچار مشکل میشود)  رخ میدهد عملکرد کلاستر کاهش پیدا نکند . اما خیلی از مواقع ممکنه مشکل Disk  در حد Degraded شدن باشه و دیسک Fail  نشده . حالا vSAN چطور میفهمه که دیسک Fail شده یا فقط Degraded  و آیا باید از مدارخارج بشه یا نه ؟ دقیقا این وظیفه DDH است .

درنسخه های قدیمی تر vSAN در صورتیکه مقدار   Read Latency / Write Latency  بیشتر از 10 دقیقه بالای 50ms بود در نتیجه دیسک Dismount میشد و Objectهایی که روی دیسک بودند همگی Absent میشدند و بعد از 60 دقیقه درصورت وجود منابع کافی جای دیگری این Object ها ساخته میشدند اما این عملکرد زیاد مناسب نبود چون ممکن بود دیسک در اون بازه زمانی به هر دلیل دچار این Latency شده است و بعد از 10 دقیقه مجددا وضعیت درایو نرمال بشه.

اما درنسخه بعد ، DDH کامل تر شد و گفت من دراین نسخه به Cache Tier دست نمیزنم و دیسک مربوط به این بخش Dismount نمیکنم چون اگر Latency مربوط به Cache Tier بالا باشد خیلی بهتر از این است که دردسترس نباشد چون در صورت Dismount کردن Cache Tier کلا Disk Group ازدسترس خارج خواهد شد و فقط درصورتیکه میانگین Write Latency برروی Capacity tier  بالا رود این دیسک Dismount خواهد شد اما مقدار این Latency تغییر پیدا کرد که برای حالت Hybrid  برابر با 500ms و برای حالت All Flash برابر با 200ms است و گفت  اگر این مقدار Latency چهار مرتبه درطول 6 ساعت (هر بار 10دقیقه)  برروی یک دیسک capacity تکرار شود من اون دیسک Dismount میکنم و قابلیت دیگری هم که اضافه کرد قابلیت Remount بود  ، DDH گفت درسته که من اگر ببینم شرایط بالا برقرار هستند دیسک Dismount میکنم اما در بازه زمانی 24 ساعت هر یک ساعت یکبار تلاش میکنم ببینیم که آیا امکان Remount کردن مجدد دیسک وجود دارد یا خیر.

اما آخرین تغییری که به DDH اضافه شده یک Checking خیلی مهم هست . همونطور که دیید در تمامی نسخه های قبل ، زمانیکه دیسک Dismount میشد با فعال شدن Object repair time بعد از 60 دقیقه (به صورت پیش فرض) Object هایی که به حالت Absent تبدیل شده اند جای دیگری ایجاد میشوند اما عملا این برای زمانی است که ما حداقل از raid1 استفاده کنیم اما اگر ماشینی که روی دیسک Degraded قرار دارد Raid0 باشد چه اتفاقی رخ خواهد داد؟ در این حالت  قبل از Dismount کردن دیسک به طورکامل ماشین روی یک دیسک دیگر منتقل خواهد کرد و دیسک معیوب شده تخلیه میشود.

DDH  درپاسخ به Fail یا Degraded شدن دیسک به 4 صورت عمل میکند:

1 – مادامیکه فضای کافی در vSAN وجود دارد تمامی Component های سالم از دیسک معیوب به سایر Diskgroup ها منتقل میشوند که مسلما با افزایش فضای استفاده شده دیسک مواجه خواهیم شد. (زمانیکه این حالت رخ میدهد Health State  در vSAN  به حالت زرد رنگ تدیل میشود .)

2- تخلیه دیسک معیوب با خطا مواجه میشود به دلیل کمبود فضا درنتیجه باید دیسک اضافه کنیم که بعد از اضافه کردن دیسک فرآیند تخلیه دیسک به صورت خودکار انجام میگردد (زمانیکه این حالت رخ میدهد Heath State در vSAN به رنگ قرمز تبدیل میشود و وضعیت دیسک به صورت DyingDiskEvacuationPartial نمایش داده میشود. )

3- تعدادی از Object ها منتقل میشوند اما تعدادی دیگر ازObject ها غیرقابل دسترس میباشند که معمولا دلیل آن عدم دسترسی به Swap است. پیشنهاد VMware در این حالت در وهله اول تماس با Support و یا پاک کردن فایلهای Inaccessible است که بعد از رفع مشکل این فایلهای غیرقابل دسترسی مجددا با همه Object ها منتقل میشوند به سایر DiskGroup ها یا با پیغام عدم فضای کافی مواجه میشویم (زمانیکه این حالت رخ میدهد Health state  در vSAN به رنگ قرمز تبدیل میشود و وضعیت دیسک به صورت DyingDiskEvacuationStuck نمایش داده میشود)

 

نکته آخر: باید درنظر داشته باشیم که نمیشه گفت 100%   همیشه vSAN پیش بینی صحیح میکنه از Fail شدن دیسک مثلا ممکنه دیسک بدون هیچگونه Warning  از کاربیفته.

اشتراک گذاری در facebook
اشتراک گذاری در twitter
اشتراک گذاری در linkedin