ברוקראג'ים בתחום forex פועלים בשוק שאינו ישן לעולם. סוחרים מצפים לגישה לחשבונות שלהם 24/7, הפקדות מיידיות וביצוע פקודות ללא הפרעות. כשמשהו נשבר — שרת נופל, ספק תשלומים מפסיק להגיב, מסד נתונים נפגם — השעון מתחיל לפעול מיד. כל דקת השבתה עולה כסף, שוחקת אמון ודוחפת סוחרים למתחרים שעדיין מקוונים.
ובכל זאת, לרוב הברוקראג'ים הקטנים והבינוניים אין תוכנית התאוששות מאסון רשמית. הם מסתמכים על התחייבות ה-uptime של ספק האירוח שלהם, על הגיבויים של ספק ה-CRM שלהם, ועל ההנחה ששום דבר קטסטרופלי לא יקרה. המאמר הזה מכסה את התרחישים שבאמת מוציאים ברוקראג'ים מהאוויר, את החלטות התשתית שקובעות כמה מהר תתאוששו, ואת תהליך התכנון שהופך משבר מאירוע שמסיים את העסק להפרעה ניתנת לניהול.

למה ברוקראג'ים פגיעים במיוחד
ברוקראג' טיפוסי בתחום forex מפעיל סטאק מורכב של מערכות מקושרות: פלטפורמת מסחר אחת או יותר (MT4, MT5, cTrader, DXtrade), CRM עם נתוני לקוחות ורשומות ציות, מספר שערי תשלום, שירותי אימות KYC, כלי דוא"ל ותקשורת, ופורטל הפונה ללקוח. כשל באחד מהרכיבים האלה עלול להתגלגל לאחרים.
האופי 24/7 של forex מחמיר את זה: אם גשר פלטפורמת המסחר נופל, לקוחות לא יכולים לבצע עסקאות. אם מסד הנתונים של ה-CRM לא זמין, ה-Backoffice לא יכול לעבד משיכות או לאמת חשבונות חדשים. אם אינטגרציית PSP נשברת, ההפקדות מפסיקות לזרום. אלה לא תרחישים היפותטיים — הם קורים באופן קבוע בכל התעשייה, והברוקראג'ים ששורדים אותם הם אלה שתכננו להם מראש.
האיומים שבאמת מפילים ברוקראג'ים
לפני שבונים תוכנית התאוששות מאסון, כדאי להבין מול מה מגנים. האיומים מתחלקים לכמה קטגוריות.
כשלים בחומרה ובתשתית הם הנפוצים ביותר. שרת קורס, דיסק מתקלקל, מרכז נתונים חווה הפסקת חשמל. אם פלטפורמת המסחר או ה-CRM שלכם רצים על שרת פיזי יחיד בלי יתירות, כשל חומרה אחד יכול להוציא את כל הפעילות שלכם מהאוויר. אחסון בענן מפחית את הסיכון הזה אבל לא מעלים אותו — אפילו ל-AWS ול-Azure יש השבתות אזוריות.
התקפות סייבר הן דאגה הולכת וגוברת. התקפות DDoS נפוצות במיוחד נגד ברוקראג'ים בתחום forex כי התוקפים יודעים שהעסק רגיש לזמן ושמפעילים עשויים לשלם כדי שהבעיה תיעלם. כופרה היא איום נוסף שמחריף, במיוחד עבור ברוקראג'ים שמאחסנים נתוני לקוחות רגישים כולל מסמכי KYC. בסיס חזק של data security הוא קו ההגנה הראשון, אבל הוא צריך להיות משולב עם תוכנית התאוששות למקרה שההגנות כושלות.
השבתות של שירותי צד שלישי משפיעות על ברוקראג'ים שתלויים בספקים חיצוניים. שער תשלומים נופל, API לאימות KYC מפסיק להגיב, או שספק פלטפורמת מסחר חווה בעיות בשרתים. אתם לא יכולים לשלוט בזה, אבל אתם כן יכולים לתכנן לכך. ברוקראג'ים שמסתמכים על PSP יחיד לכל ההפקדות נמצאים השבתה אחת מהקפאת הכנסות מלאה, וזו אחת הסיבות לכך שפיזור בין multiple payment gateways הוא הכרח תפעולי, לא רק נוחות.
טעות אנוש היא הסיבה ליותר השבתות ממה שרוב המפעילים מוכנים להודות. סקריפט מיגרציה של מסד נתונים רץ על production במקום על staging. שינוי בכללי firewall חוסם את כל התעבורה הנכנסת. שרת מופעל מחדש בשעות שיא כי מישהו שכח לבדוק את לוח המסחר. אפשר למנוע את אלה באמצעות בקרות גישה מתאימות ותהליכי ניהול שינויים, אבל הם עדיין צריכים להיות חלק מתוכנית ההתאוששות.
RTO ו-RPO: שני המספרים שמגדירים את התוכנית שלכם
כל תוכנית התאוששות מאסון בנויה סביב שני מדדים: Recovery Time Objective (RTO) ו-Recovery Point Objective (RPO).
- RTO הוא פרק הזמן המרבי שהעסק שלכם יכול להיות לא מקוון לפני שההשפעה הופכת לבלתי מקובלת. עבור ברוקראג' בתחום forex, זה נמדד בדרך כלל בדקות ועד שעות בודדות. אם פלטפורמת המסחר שלכם מושבתת ארבע שעות במהלך סשן לונדון, תאבדו סוחרים לצמיתות — לא רק לאותו סשן, אלא לתמיד.
- RPO הוא כמות הנתונים המרבית שאתם יכולים להרשות לעצמכם לאבד. אם הגיבוי האחרון של מסד הנתונים שלכם היה לפני 24 שעות והשרת נכשל עכשיו, תאבדו יום שלם של רישומי לקוחות, הפקדות, בקשות משיכה ושינויים בחשבונות מסחר. עבור רוב הברוקראג'ים, RPO של יותר משעה כבר מהווה סיכון ציות — ייתכן שלא תוכלו לשחזר אישורי KYC, עסקאות פיננסיות או חישובי עמלות IB.
שני המספרים האלה מניעים כל החלטת תשתית בהמשך. ברוקראג' שצריך RTO של 15 דקות ו-RPO של 5 דקות צריך שכפול מסדי נתונים בזמן אמת, failover אוטומטי ומערכות standby שהוגדרו מראש. ברוקראג' שיכול לסבול RTO של 4 שעות ו-RPO של שעה יכול להשתמש ב-snapshots מתוזמנים ובהליכי failover ידניים. ההבדל בעלויות בין שתי הגישות האלה משמעותי, ולכן הצעד הראשון הוא להיות ריאליים לגבי מה שהעסק שלכם באמת צריך.
בניית התשתית להתאוששות
לאחר שהגדרתם את ה-RTO וה-RPO שלכם, דרישות התשתית נגזרות באופן לוגי.
שכפול מסדי נתונים הוא הבסיס. מסד הנתונים של ה-CRM שלכם, שמחזיק כל רשומת לקוח, כל עסקה, כל מסמך ציות וכל קשר IB, צריך להיות משוכפל ללפחות מיקום משני אחד בזמן כמעט-אמת. רוב מנועי מסדי הנתונים המודרניים תומכים בשכפול סינכרוני או אסינכרוני. שכפול סינכרוני (שבו כל כתיבה מאושרת גם ב-primary וגם ב-replica לפני שהיא נרשמת) נותן לכם RPO של אפס אבל מוסיף השהיה. שכפול אסינכרוני מהיר יותר אך יוצר חלון קטן של אובדן נתונים פוטנציאלי.
יתירות גיאוגרפית פירושה שמערכות הגיבוי שלכם נמצאות במיקום פיזי שונה מהמערכות הראשיות. אם הברוקראג' שלכם פועל ממרכז נתונים יחיד בלונדון ומרכז הנתונים הזה חווה כשל חשמל, replica באותו בניין לא מועילה. replica בפרנקפורט או אמסטרדם שומרת אתכם פעילים. זה חל על כל רכיב קריטי: ה-CRM, פורטל הלקוחות, אחסון קבצים עבור מסמכי KYC, ותשתית הגשר של פלטפורמת המסחר.
failover אוטומטי הוא מה שמבדיל בין RTO של 15 דקות לבין 4 שעות. אם שרת מסד הנתונים הראשי שלכם נכשל וצריך שמישהו יתעורר, יתחבר לשרת הגיבוי, יקדם את ה-replica ל-primary, יעדכן DNS ויאתחל שירותים — מדובר בשעות. אם load balancer או database proxy מנתב אוטומטית את התעבורה ל-replica הבריאה, מדובר בדקות. צריך לבדוק את האוטומציה באופן קבוע — failover שעובד בתיאוריה אבל מעולם לא הופעל בפועל הוא לא failover בכלל.
אסטרטגיית גיבוי חורגת מעבר לשכפול מסד נתונים. אתם גם צריכים גיבויים מלאים תקופתיים המאוחסנים במיקום נפרד (באופן אידיאלי אצל ספק ענן אחר או באחסון לא מקוון) להגנה מפני כופרה או מחיקה בשוגג. גיבויים מלאים יומיים עם אינקרמנטליים שעתיים הם קו בסיס סביר עבור רוב בתי הברוקראז'. גיבויים אלה צריכים להיות מוצפנים, להיבדק לשחזוריות על בסיס קבוע, ולהישמר בהתאם לדרישות הציות שלכם.
תכנון להתמודדות עם כשלים של צד שלישי
לא כל מה שנשבר נמצא בשליטתכם. תוכנית ההתאוששות מאסון שלכם צריכה לקחת בחשבון כשלים בשירותים שעליהם אתם מסתמכים.
עבור עיבוד תשלומים, התשובה היא יתירות. לעולם אל תסתמכו על PSP יחיד לכל שיטות ההפקדה. אם מעבד כרטיסי האשראי הראשי שלכם נופל, מעבד חלופי צריך להיות מוכן לקחת את ההובלה — באופן אידיאלי עם ניתוב אוטומטי כך שלקוחות לא ישימו לב למעבר. אותו הדבר חל על ספקי תשלומי קריפטו ועל מתווכי העברות בנקאיות. פריסת CRM שלכם צריכה לתמוך במספר אינטגרציות PSP שניתן להפעיל או להשבית ללא שינויי קוד.
עבור תקלות בפלטפורמת המסחר (MT4/MT5 בעיות שרת, השבתה של cTrader), האפשרויות מוגבלות יותר, כי בדרך כלל אי אפשר להריץ שרת MetaTrader גיבוי אצל ספק אחר. מה שכן אפשר לעשות הוא להחזיק תוכנית תקשורת ברורה, מסלולי הסלמה מתועדים מול ספק הפלטפורמה שלכם, ו-SLAs שמגדירים זמני תגובה. אם אתם מעריכים ספקי פלטפורמה, שאלו על תשתית ההתאוששות מאסון שלהם לפני החתימה.
עבור שירותי KYC ואימות, יש לשמור אינטגרציות עם לפחות שני ספקים. אם ממשק ה-API הראשי שלכם לאימות זהות נופל, מנגנון הגיבוי צריך להיות מוגדר מראש ונבדק, ולא משהו שצוות הפיתוח שלכם נאלץ להקים בחיפזון במהלך השבתה.

תוכנית התקשורת
התאוששות טכנית היא רק חצי מהעבודה. החצי השני הוא לומר לאנשים הנכונים מה קורה, מהר.
תוכנית התקשורת שלכם צריכה לכסות שלושה קהלים: לקוחות, הצוות הפנימי ושותפים.
עבור לקוחות, הכינו מראש תבניות עבור התרחישים הסבירים ביותר: השבתת פלטפורמת המסחר, עיכובים בעיבוד הפקדות, חוסר זמינות של הפורטל ותחזוקה מתוזמנת. התבניות הללו צריכות להיות מוכנות לפריסה דרך אימייל, SMS ומערכת ההתראות של פורטל הלקוחות שלכם. במהלך השבתה בפועל, הדבר הגרוע ביותר שאתם יכולים לעשות הוא לשתוק — סוחרים יניחו את הגרוע מכל ויתחילו לפרסם בפורומים וברשתות החברתיות.
עבור הצוות הפנימי שלכם, הגדירו מטריצת הסלמה. מי מקבל שיחת טלפון ראשון כשה-CRM נופל ב-3 לפנות בוקר? למי יש הסמכות להפעיל failover? מי מתקשר עם הלקוחות? יש להקצות תפקידים אלה מראש, עם אנשי גיבוי לכל תפקיד. Runbook שנמצא במסמך משותף הוא חסר תועלת אם המסמך המשותף מתארח על אותו שרת שרק קרס — שמרו עותק במקום אחר הנגיש באופן עצמאי.
עבור שותפים — IBs, ספקי תשלומים, ספקי נזילות — הם צריכים לדעת על השבתות שמשפיעות על הפעילות שלהם. IBs שקישורי ההפניה שלהם שבורים צריכים לשמוע זאת מכם לפני שהם שומעים זאת מהסוחרים שלהם. ספקי תשלומים צריכים לדעת אם אתם עוברים למעבד גיבוי כדי שיוכלו לנטר בעיות התאמה.
בדיקת התוכנית
תוכנית התאוששות מאסון שלא נבדקה היא מסמך, לא תוכנית. בדיקות סדירות הן מה שהופך אותה למשהו שהצוות שלכם יכול באמת לבצע תחת לחץ.
תרגילי שולחן הם צורת הבדיקה הפשוטה ביותר. אספו את הצוות, הציגו תרחיש ("שרת מסד הנתונים הראשי נכשל זה עתה ב-10 בבוקר לפי שעון לונדון"), ועברו על כל שלב בתגובה. מי עושה מה? באיזה סדר? היכן נמצאים אישורי הגישה למערכות הגיבוי? כמה זמן לוקח כל שלב? תרגילים כאלה חושפים בעקביות פערים שנראים ברורים בדיעבד אבל שאף אחד לא שם לב אליהם על הנייר.
תרגילי failover הולכים רחוק יותר — אתם ממש מפעילים את המעבר למערכת הגיבוי, מוודאים שהכול עובד, ואז מבצעים חזרה למערכת הראשית. עשו זאת לפחות פעם ברבעון, ובאופן אידיאלי פעם בחודש. עקבו אחר משך התהליך והאם התוצאה תואמת את יעדי ה-RTO וה-RPO שלכם. אם יעד ה-RTO שלכם הוא 30 דקות אבל התרגיל האחרון לקח 90 דקות, אתם יודעים היכן להשקיע.
בדיקות שחזור גיבוי מוודאות שהגיבויים שלכם באמת שמישים. לפחות פעם ברבעון, קחו גיבוי ושחזרו אותו לסביבה נפרדת. ודאו שנתוני הלקוחות שלמים, שמסמכי KYC נגישים, שמיפויי חשבונות המסחר נכונים, ושמבני ה-IB מלאים. גיבוי שאי אפשר לשחזר הוא לא גיבוי.
שיקולי ציות
בהתאם לסביבה הרגולטורית שלכם, התאוששות מאסון עשויה שלא להיות אופציונלית — היא עשויה להיות דרישת רישוי.
בתי ברוקראז' מפוקחים תחת CySEC, FCA, ASIC או רשויות אחרות נדרשים בדרך כלל לשמור על תוכניות המשכיות עסקית, להדגים יכולות לשחזור נתונים ולדווח על השבתות משמעותיות לרגולטור שלהם. גם אם הברוקראז' שלכם פועל בסביבה רגולטורית מקלה יותר, תוכנית DR מתועדת ונבדקת היא אות אמון ללקוחות ולשותפים פוטנציאליים שמבצעים בדיקת נאותות לפני עבודה אתכם.
דרישות שימור נתונים מצטלבות גם הן עם התאוששות מאסון. אם רגולטור דורש מכם לשמור רשומות לקוחות במשך שבע שנים, אסטרטגיית הגיבוי והארכיון שלכם צריכה להבטיח שהנתונים יישארו נגישים וניתנים לשחזור במשך כל התקופה הזו. משמעות הדבר היא סבב מדיות גיבוי, בדיקות תקינות ותיעוד ברור של אילו נתונים מאוחסנים היכן.
איך נראית תוכנית DR מינימלית-אבל-מעשית
לא כל ברוקראז' צריך הקמה פעילה-פעילה רב-אזורית עם failover ללא השבתה. זה עולה הרבה כסף ומשאבי הנדסה. אבל כל ברוקראז', ללא קשר לגודל, צריך את הדברים הבאים:
גיבויים אוטומטיים יומיים של מסד הנתונים המאוחסנים במיקום גיאוגרפי נפרד, מוצפנים, עם בדיקות שחזור חודשיות. לפחות שתי אינטגרציות PSP פעילות ונבדקות, כך שהפקדות יוכלו להימשך אם אחת מהן נופלת. מטריצת הסלמה מתועדת — מי מקבל שיחת טלפון, באיזה סדר, עם מספרי טלפון עדכניים (לא אימיילים — גם האימייל עלול להיות מושבת). תבניות תקשורת מוכנות מראש ללקוחות עבור שלושת תרחישי ההשבתה הסבירים ביותר. Runbook לכל מערכת קריטית (CRM, גשר לפלטפורמת המסחר, פורטל לקוחות) שמכסה הליכים של הפעלה ידנית מחדש, failover ו-rollback. תרגילי שולחן רבעוניים העוברים על לפחות תרחיש כשל אחד מקצה לקצה.
זה לא דורש השקעה של שש ספרות בתשתית. זה דורש זמן, תיעוד, והמשמעת לבדוק באופן קבוע.
סיכום
התאוששות מאסון היא לא משהו שרוב מפעילי הברוקראז' חושבים עליו עד שמשהו משתבש. עד אז, כבר מאוחר מדי לתכנן — אתם מגיבים, מאלתרים, ומקווים שהנזק יישאר מוגבל. בתי הברוקראז' ששורדים השבתות, מתקפות סייבר וכשלים של ספקים הם אלה שהחליטו מראש מה יעשו, בנו את התשתית שתתמוך בכך, ובדקו את התוכנית שלהם לפני שהייתה להם בה צורך.
השוק לא מחכה לכם להתאושש. המתחרים שלכם לא עוצרים בזמן שהמערכות שלכם מושבתות. והלקוחות שלכם לא נותנים לכם הזדמנות שנייה אם הם לא יכולים לגשת לכספים שלהם או לבצע את העסקאות שלהם כשזה חשוב. הזמן לבנות את תוכנית התאוששות מאסון שלכם הוא עכשיו — כל עוד הכול עדיין עובד.
בקשו ייעוץ בנושא אסטרטגיית התאוששות מאסון לברוקראז'
קבלו הנחיה מקצועית בהגדרת יעדי RTO ו-RPO ריאליסטיים עבור הברוקראז' שלכם ובהתאמתם לחובות התפעוליות והרגולטוריות שלכם. נעזור לכם להעריך יתירות תשתית, עמידות מערכות תשלומים, תהליכי תקשורת והיערכות למעבר כשל לפני שמשבר יבחן את המערכות שלכם.
ביחד, נסקור את מצב ההמשכיות הנוכחי שלכם ונשרטט מסגרת מובנית להתאוששות מאסון, שנבנתה עבור סביבות מסחר 24/5.