از شب نهم شهریور (پنج شنبه) سرویس ما دچار کندی شد و به برخی درخواست ها پاسخ نمی گفت. پس از بررسی ها با پایین آوردن بار پایگاه داده برای رفع موقت مشکل، آن را تا حدی برطرف کردیم و روز جمعه به بررسی دقیقتر مشکل پرداختیم. متوجه شدیم که پایگاه داده ما نمی تواند داده هایش را روی دیسک بنویسد و گاهی در این کار خطا رخ می دهد. با بررسی توسط تیم ما و تیم پایگاه داده مورد استفاده (ArangoDB) به نتیجه خاصی نرسیدیم تا از طریق پشتیبان دیتا سنتر متوجه شدیم هارد متصل به سرور ما دچار اختلال می باشد. احتمال می دهیم دلیل آن تمام شدن عمر هارد SSD متصل به سرور باشد اما ممکن است عوامل دیگری مثل مشکل در virtualization و ... باعث خراب شدن هارد مجازی و ... شده باشد.

به هر حال پس از متوجه شدن این موضوع تصمیم به قرار دادن سرور ها روی کلاود گرفتیم. در واقع تصمیم به این کار را قبل از رفتن به نمایشگاه TGC گرفته بودیم که به دلایل مختلف این کار عقب افتاد. این کار تنها راه حل سریع مشکلات و البته پشتیبانی از هر میزان بار ممکن می باشد. اشتباهاتی از سمت افراد دیتا سنتر باعث شد ما در انتقال داده ها مشکل پیدا کنیم و شنبه شب برای چند ساعت سرور قطع باشد. این مشکل هم با رفتن به cloud و داشتن IP های شناور حل شده است. ما تا صبح در دفتر ماندیم و حتی یکی از اعضای تیم ساعت سه نصف شب از خانه به دفتر آمد و مشکل را به کمک هم حل کردیم.

اکنون بازی هایی که به سرور داخلی و latency خیلی پایین نیاز ندارند روی سرور های خارجی ما در upcloud.com سرویس داده می شوند و این موضوع به ما امکان می دهد هر مشکلی را بسیار سریع حل کنیم و تعداد سرور ها را به سرعت افزایش دهیم و بسیاری کارهای هیجان انگیز دیگر انجام دهیم. مثلا می توانیم به کاربران سرور مجازی برای اجرای منطق در یونیتی و ... اجاره دهیم. همچنین ما در حال بهتر کردن سیستم های مربوط به تامیر خودکار (self healing) سیستم هستیم و در باره این سیستم و سیستم monitoring خود نیز به زودی گزارشی منتشر خواهیم کرد.

ما می دانیم که این گونه اتفاقات نباید رخ دهند و کاربران عزیزمان بازی هایشان را با اعتماد در سیستم ما قرار داده اند و می خواهند خیالشان از نظر سرور و بک اند راحت باشد. ما تمام تلاش خود را برای پیش نیامدن دوباره این مشکل کرده و خواهیم کرد. به زودی تکنولوژی های مربوطه را به شما عزیزان نشان خواهیم داد. قطعی یا کندی سرویس برای ما و همه سرویس دهندگان رخ داده و خواهد داد اما می توان آن را کوتاه، شفاف و کم ضرر کرد و سریع آن را رفع کرد. ما با استفاده از سرویس های ابری و ساخت تکنولوژی های مناسب تمام سعی خود را برای داشتن سرویسی بسیار امن و پایدار می کنیم.