English   Español  Française  Deutsch  Portuges   Italiano   עברית

 

Business Continuity בעידן הטרור

אלדד גלקר

הכותב הנו מנכ"ל ובעלים של קבוצת צ'יף. קבוצת צ'יף הנה קבוצת חברות שהוקמו באמצע שנות השמונים של המאה הקודמת ועוסקות באבטחת הישרדות הנתונים במערכות מחשב.
 

אחד האתגרים הגדולים בתחום המחשוב כיום הנו המשכיות השירות (Business Continuity). סכומי הכסף וההשקעה במערכות גיבוי, הישרדות והתאוששות הנם עצומים. על פי הערכות IDC המנתחות את המכירות השנתיות של החברות העוסקות באספקת פתרונות גיבוי והתאוששות עומדת ההשקעה העולמית בתחום זה על מעל 2.7B$ ותעלה אל מעל 4.7B$ בשנת 2005. כמובן שאירועי הטרור האחרונים בארה"ב ישפיעו בטווח הקצר והארוך על הערכות אלו.

העובדה ש
Morgan Stanley שמשרדיהם היו בבנייני התאומים הצליחו לחזור לפעילות בתוך פחות מ 24 שעות הנה אך ורק כתוצאה מבניית מערכת גיבויים מתאימה שהוקמה מבעוד מועד, בעקבות ניתוח סיכונים נכון, שבבסיסו ההבנה שיש להכין מראש תשתית גיבוי חליפית למקרה של קריסת מערכות המחשב. אמנם ההוצאה החודשית השוטפת של Morgan Stanley על מערכות גיבוי אלו הנה מעל 100,000$ אך ניתן למצוא פתרונות מתאימים, בתקציבים המתאימים, גם לחברות בינוניות ואף קטנות.

בכדי להבין את ניתוח הסיכונים הנכון כפי שראוי לעשותו עלינו להבהיר את הפער בין הבנת אנשי המחשבים את המחשב לבין הבנת המשתמש הסופי את המחשב בכלל ואת המושג מערכת -
System בפרט.

המחשב הנו כלי, וככזה תפקידו הוא לסייע ביצירת המידע, באחסונו, באיתורו ובשליפתו המהירה בעת הצורך. המחשב, בדומה לעפרון, מאפשר להעביר רעיונות, מחשבות, נתונים ומידע כללי מהתודעה אל הכתב. בדומה לעפרון, המחשב מאפשר מחיקת חלקים כתובים ושכתובם. אין למחשב, למערכת ההפעלה שלו או לתוכנות הנמצאות בו כל חשיבות בפני עצמן ללא אדם המעביר את תודעתו באמצעותן, בדיוק כמו שלעפרון אין כל חשיבות בפני עצמו.

בדומה לתיק תכתובות מאפשר המחשב לתייק את המסמך הכתוב בתיקיות שונות ולמיינן על פי תאריך הכתיבה או שם המסמך. וכל זאת בכדי לאפשר איתור ושליפת המסמך בעת הצורך. בכדי לבצע פעולות אלו על המחשב לפעול בדרכים שונות באמצעות מערכת הפעלה, "מתאמים של רכיבי חומרה" (
Drivers) ותוכנות ייעודיות.

עבור טכנאי המחשבים, מערכת המחשב הנה חסרת כל ערך כל עוד לא הותקן בה מעבד מרכזי –
CPU המאפשר לאפיין את יכולות וביצועי המערכת. גם אז ניתנת לטכנאי האפשרות לאפיין את המחשב בהתאם לניסיונו והבנתו באמצעות שינוי מרכיבי הגדרת המערכת ב- BIOS. עבור טכנאי המערכות, מערכת חומרת מחשב הנה חסרת כל ערך כל עוד לא מותקנת על גביה מערכת הפעלה ותוכנות ייעודיות וגם אותן ניתן להתאים לצרכים שונים באמצעות שינויים והתאמות בקובצי קונפיגורציה או ב Registry

בכל אחד מהמקרים אנשי המחשבים מניחים כי מטרת המחשב הנה לפעול כראוי ובזה הם משקיעים את עיקר מרצם. טכנאים מאמינים, כי התקנת מערכת חומרה, מערכת הפעלה ותוכנות ייעודיות באופן תקין, כך שכל מרכיבי החומרה יפעלו ללא התנגשויות ובביצועים אופטימאליים הנה המטרה העליונה, ומעבר לכך אין להם כל עניין במערכת. עבור הטכנאים,
System פירושו מערכת חומרה ומערכת הפעלה עובדת ותקינה כך שניתן להם להפעיל את שיקול דעתם וניסיונם להשפיע על פעולותיה באמצעות שינויים שהם עושים במערכת.

לעומת זאת, עבור המשתמש הסופי,
System פירושו האפשרות ללחוץ על Icon באמצעות העכבר ומייד להיות מסוגל להעביר מידע מתודעתו לתוך מאגרי המידע במחשב או לאחזר אותו במהירות בעת הצורך. מערכת עובדת ומותקנת כראוי הנה הבסיס לכל פעולותיו. מכיוון ומטרת המחשב, האחת והיחידה, הנה לאפשר למשתמש הסופי להעביר נתונים לתוך המערכת ומתוכה. כל מערכת אשר תעמוד בכל התקנים והבדיקות של האנשים הטכניים אך לא תאפשר למשתמש הסופי להפעילה בהתאם לצרכיו, ניסיונו או ידיעותיו, איננה מערכת תקינה או יעילה.

כאמור, מערכות מחשב הנן מערכות בינאריות הבנויות, תמיד, משני מרכיבים - מערכת ומידע

(System & Data). כל מערכת בפני עצמה מאפשרת, באמצעות ממשק משתמש, להגדיר, לשנות או לעבד נתונים הנוצרים או נאספים על ידי בני אדם.

כאשר אנו בודקים את צורת העבודה מול מסדי נתונים גדולים אנו מוצאים בלבול גדול אף יותר: עבור אנשי המערכות האחראים על גיבוי מסד הנתונים, מהווה מסד הנתונים כולו מידע (Data) אותו יש לגבות. הם אינם מפרידים בין מערכת מסד הנתונים לבין הנתונים עצמם האגורים בתוכה, אותם יצרו המשתמשים, ולכן גורמים, מדי פעם, לשירות לקוי ואף להפסקת שירות ללקוחותיהם - המשתמשים הסופיים.

שיטות הגיבוי וההתאוששות הקיימות מפרידות גם הן בין טיפול במידע וטיפול במערכות.


Backup Solutions VS Fault tolerance Solutions

לשם הגנת המערכת משתמשים בשיטות הנקראות Fault Tolerance. שיטות אלו מאפשרות המשכיות פעולת המערכת גם לאחר קרות שגיאה או תקלת מערכת ברמת החומרה. שיטות אלו אינן אמורות ואינן מסוגלות להתמודד עם תקלות תוכנה או תקלות מידע. בין הפתרונות המוכרים למערכות אלו נפוצים במיוחד ה RAID וה- MIRROR. בשיטות אלו, כאשר אחד מהדיסקים הקשיחים במערכת מפסיק לעבוד, מסיבה כל שהיא, ממשיכה המערכת לפעול ולספק שירותים. המערכת איננה יכולה, בדרך כלל, להתמודד עם קריסה של יותר מדיסק אחד בו זמנית. מערכות  אלו "אדישות" לחלוטין לאופי ותוכן המידע האגור בתוכן - ניתן למחוק את כולו, להדביקו בוירוסים או לשבשו בכל דרך שהיא ללא כל התראה או הגנה  ממערכת המחשב.

לשם הגנת המידע משתמשים בגיבוי (
Backup). פעולת הגיבוי משמעותה החזקת עותק קודם של המידע באופן שונה. אופן שונה פירושו, העתקת המידע למיקום אחר או מחשב אחר, או דיסק אחר, או העתקתו למדיה שונה כדוגמת קלטות או מדיה אופטית ואף הדפסתו על גבי נייר. ככל שישמרו יותר גרסאות היסטוריות של המידע, יעלו סיכויי ואיכויות השחזור. מדי יום אנו נתקלים בארגונים שגיבו את נתוניהם המשובשים מבלי דעת כי הנתונים אותם הם מגבים הנם חסרי תועלת לחלוטין. רק אחזקת מספר דורות של נתונים אלו יכולה, לעתים, לסייע בהשבת המידע לתקינות.

ההפרדה בין שתי שיטות אלו הנה ברורה וחדה. שרידות מערכת משמרים אך ורק בפתרונות
Fault Tolerance ומידע מגבים אך ורק בפתרונות Backup. כמובן שניתן להגן על מידע גם באמצעות Fault Tolerance אך יש להיות מודעים לכך שפתרון זה יגן על זמינותו של המידע בלבד ולא על תוכנו או תקפותו. ניתן כמובן גם להגן על המערכת באמצעות פתרון Backup במודע לכך שפתרון זה יאפשר אך ורק החזרת קבצי הגדרות למערכת תקינה.

הגנת ה
Data באמצעות פתרון Fault Tolerance תהיה לא יעילה, מכיוון ופגיעה במידע המקורי תפגע מיידית ובדיוק באותו אופן במידע החלופי. כאמור מערכות Fault Tolerance הנן "אדישות" לחלוטין לתוכן המידע ולכן פעולות כגון שינוי ואף מחיקת המידע כולו הנן פעולות חוקיות מבחינתן.

הגנת ה
System באמצעות Backup תהיה לא יעילה באותה המידה מכיוון ומהות פעולת הגיבוי הנה העתקת הקבצים והמידע.  עותקים מסוג זה אינם מאפשרים לבצע תהליך אתחול מערכת בעת קריסה ויש להתקין את כל המערכת מחדש ולהתקין את תוכנת הגיבוי המתאימה לפני שניתן לשחזר את הקבצים מהגיבוי.

פתרונות
Fault Tolerance מבוצעים, בדרך כלל, על גבי דיסקים קשיחים. פתרונות נוספים מאפשרים מערכת מחשב חלופית On Line ואף אתר חלופי המכיל את כל הדרוש להמשך פעולת הארגון. לאחרונה החלו חלק מהיצרנים לאפשר ביצוע גיבוי System פעיל לקלטות באופן שמאפשר את החזרתו למערכת ללא מערכת הפעלה וללא צורך בתוכנת גיבוי / שחזור, כפי שהיה נהוג במחשבים מרכזיים מזה זמן רב.

פתרונות גיבוי מבוצעים, בדרך כלל, לקלטות באופן שמאפשר את ניודן אל מחוץ לאתר או לכספת. גיבויים אלו זמינים ונוחים אך לא תמיד אמינים. לכן, יש לבצעם על פי נוהלי עבודה קפדניים של רענון קלטות, ניקוי ראשי הטייפים, בדיקות תקינות המידע בקלטות ואחסונם בתנאי סביבה אופטימאליים. פתרונות אלו מאפשרים גיבוי פשוט יחסית, אך לעתים תהליך השחזור הנו איטי, מסובך או לא נוח. ניתן לגבות נתונים גם לדיסקטים, CD או DVD אך בכל אלה מגבלת הנפח מהווה מכשול. לאחרונה החלו גם חלק מיצרני מערכות הגיבוי להשתמש בדיסקים קשיחים כחלק מתהליך הגיבוי אך לא תמיד כחלק מתהליך השחזור.

ישנם גם פתרונות משולבים המאפשרים להרוויח את הטוב בכל העולמות כדוגמת
RAIT (Raid של טייפים) המאפשר כתיבה בו זמנית למספר קלטות ובמגדיל בכך משמעותית את מהירות הקריאה  / כתיבה מהקלטות ואת סיכויי שרידות המידע.

בגיבוי מסדי נתונים יש להתייחס בדיוק באותה הצורה כבגיבוי שרתים: יש לגבות את מערכת מסד הנתונים להעתק תקין ועובד הניתן להפעלה מיידית בקרות נזק כדוגמת
Fault Tolerance , ובנפרד לגבות את המידע האגור בתוכו למקרה בו ייגרם נזק למסד הנתונים ויהיה צורך להקים מסד נתונים חדש ולהחזיר אליו את הנתונים מהגרסה האחרונה.

גיבוי נתונים רצוי תמיד שישמר בתצורה קלת שחזור / הצלת נתונים ככל האפשר. שמירת מידע מגובה באופן דחוס או מוצפן או בפורמט שאיננו סטנדרטי מקשה, מעקב ומייקר את תהליך השחזור וההתאוששות כולו. 


Down Time

בבחינת תהליכי הגיבוי הארגוניים אנו מוצאים מספר משתנים קריטיים המשפיעים אל החלטות הארגון הנוגעות לתהליכים אלו:

  1. משך הזמן (בשעות) של הפסקת שירות (Down Time) הצפוי 

  2. עלות כוללת לשעת DT

  3. באיזו תדירות (בשעות) צפויDT

  4. איכות ההתאוששות (באחוזים מסך הנתונים) לאחר הפסקת השירות

  5. עלות כוללת (לשעה מתוך העלות השנתית) לאבטחת שרידות המידע בארגון *

DT

DT$

T

Q

$

ההשקעה הכספית ($) האופטימאלית צריכה להעלות את משך הזמן (T) בין DT, להוריד את משך זמן ה DT ולהעלות את איכות המידע (Q) הזמין בסוף ה DT במינימום עלויות, עבור הצרכים של כל ארגון ומידת הגמישות שלו ביחס לפרמטרים השונים, וכפועל יוצא של ניתוח עלות תועלת בהשקעה כספית לעומת נזק עקיף וישיר הנובע מהפסקת השירות.

לכאורה ניתן לומר כי לא ניתן להגיע למצב אידיאלי בו לעולם לא תהיה תקלה במערכת המחשב. מבחינה חישובית ניתן לומר שכאשר
Q=100 ו DT=0 ו T=∞ אז $=∞. ולכן פתרון אידיאלי הנו אוטופי ורק פתרון אופטימאלי נקודתי הנו מעשי. פתרונות אלו אינם דורשים תמיד השקעה כספית. לרוב הם דורשים, קודם כל, השקעת מחשבה ותשומת לב לצרכי המשתמשים ומציאת הנקודות עליהן ניתן להתפשר בכדי להגיע לביצועים אופטימאליים.

דוגמאות:

א.      במערכת RAID בודדת אשר אין לה גיבויים, אשר קרס בה דיסק בודד אך היא ממשיכה לספק שירותים כרגיל שווה ה DT ל 0 וה Q שווה ל 100%. באותה מערכת אשר קרסו בה שני דיסקים ויצאה מכלל שימוש שווה ה DT ל"אין סוף" (∞) וה Q ל 0. המוצא היחידי ממצב זה הנו הבאת המערכת למעבדת הצלת נתונים (Data Recovery), בכדי להפחית את ה DT ובכדי להעלות את ה Q. במערכת מסוג זה הכרחי להוסיף גיבוי לקלטות.

ב.       בהנחה שזמן פעולת מערכת מחשב ממוצעת הנו כ 4 שנים בין קריסות ואנו יכולים לסבול DT בן מספר שעות אחת לארבע שנים וכמו כן אנו יכולים לסבול Q השווה לגיבוי האחרון התקין של המערכת אשר הנו בן 24 שעות. כלומר איבדנו את כל המידע החדש או המעודכן של יום העבודה האחרון. במקרה זה נוכל להמליץ על התקנת מערכת גיבוי לקלטות אשר תגבה את המידע החשוב אחת ליום. אנו נסייג את המלצתנו בכך שיש להקפיד על נוהלי עבודה ברורים:

א.      אף קלטת לא תהיה בשימוש יותר מ 20 פעם ובכל מקרה לא תהיה בסבב יותר מ 6 חודשים.

ב.       ראשי הטייפים יעברו ניקוי אחת לכל 20 פעולות ולכל הפחות אחת לחודש.

ג.        לגיבויים יבוצע שחזור מדגמי לכל אחת מהקלטות לפחות אחת למחזור חיים, וכדומה.

ד.       אחת לרבעון יבוצע תרגיל התאוששות והקמת מערכת.

 הפתרון הנפוץ להורדת ה DT והעלאת ב Q הנו תוספת טייפ לגיבוי הנתונים. כלומר, העלאת מרכיב $, במצב זה ה DT שווה למספר שעות וה Q שווה לפער המידע בין המידע האחרון שנכנס למערכת לבין המידע הנמצא בגיבוי התקין האחרון.

פתרון נוסף לבעיית ה
Raid הנו להתקין Raid 10 (מערכת המכילה שני Raid 5 במצב Mirror ביניהן), שיטה זו מכפילה את העלויות, $X2 אך מורידה חזרה את ה DT ל 0 ומעלה את ה Q ל 100, כל עוד לא קרסו, בו זמנית, שני דיסקים בשתי המערכות המקבילות, מצב אשר גם אותו כבר פגשנו, ואשר מחזיר אותנו למצב הראשון.

בארגונים אשר בהם
Q בן 24 שעות מהווה נזק ישיר ועקיף אמיתי ואבדן שעות מצטברות גדול יותר יש למצוא פתרונות יצירתיים הרבה יותר. כמערכות המשלבות גיבויים ואבטחה גם יחד ללא העמסת יתר על תעבורת המידע בארגון.

המרכיב הראשון שיש לזהות בתהליך ניתוח הסיכונים בארגון הנו עלות ההשבתה לשעה לכל אחת מהמערכות.

* על פי סקר
(http://www.contingencyplanningresearch.com) Contingency Planning Research

לשנת 2001, דיווחו 46% מהחברות כי עלות כל שעת DT יכולה להגיע עד 50K$ ו 28% מהחברות דיווחו על עלות של בין 51K$ ל 250K$ לכל שעה. כמו כן עולה מסקר זה כי 40% מהחברות אינן נמצאות בסכנה קיומית בתחום של 72 שעות DT ו 21% מהחברות אינן נמצאות בסכנה קיומית בתחום של 48 שעות DT.


Personal Down Time (PDT)

אחד המרכיבים בתהליכי ההישרדות והתאוששות אשר נעלם מן העין לעתים, הנו מושג חדש אותו אנו טובעים כאן והנקרא Personal Down Time (PDT), מושג זה נועד לבטא אבדן שעות עבודה נקודתית לעובד בודד בארגון. לדוגמה, עובד אשר מייצר בעמל רב מסמך ולאחר מכן מוחק אותו או משבש אותו בטעות, גורם לעצמו ל PDT בהיקף השעות אותן עליו להשקיע בשכתוב המסמך וכן בהיקף השעות בהן הוא מאחר בביצוע המטלות האחרות.

לכאורה הנזק איננו גדול, אך אם נבדוק נושא זה לעומקו נמצא שבממוצע לאחד מתוך כל 100 עובדים בארגון נגרם
PDT אחת ליום ומשכו של PDT ממוצע הנו כ- 3 שעות. לארגון בן 100 עובדים העובד 23 ימים בחודש המשמעות הנה אבדן 69 שעות עבודה לחודש או 8.6 ימי עבודה המהווים 37% ממשרה. לארגון בן 266 עובדים המשמעות הנה תשלום שכר עבודה מלא על עובד (וירטואלי) נוסף בשם PDT.  אנו יכולים לבחון נתון זה בפשטות- האם לא קרה לנו שהטענו מסמך, שינינו אותו ולאחר מכן שמרנו אותו ב"שמירה" (Save) במקום ב"שמור כ" (Save As), ולאחר מכן הזדקקנו לשעות רבות לשם שחזור או כתיבת המסמך המקורי מחדש?, האם תקלה קטנה מעין זו לא קוראת לנו פעמיים או שלוש בשנה? (אחת ל 100 יום לערך).

אם נשווה נזק מצטבר זה מבחינת עלות אל מול הנזק הנגרם מ
DT אחת לארבע שנים לשרת הראשי נגלה כי הנזק המצטבר של PDT באותן ארבע שנים הנו גדול פי כמה וכמה. להפתעתנו אנו רואים כי ההשקעה הארגונית במניעת PDT או שיפור ה Q בהתאוששות מ PDT הנם קרובים ל 0. כמו כן אנו רואים שפתרונות הגיבוי המקובלים אינם מתוכננים לפתרון בעיות PDT, בחלקם הגדול תהליך שחזור הקובץ הבודד מהקלטות אורך כמעט כזמן הדרוש ליצירת הקובץ הבודד מחדש, אם לא יותר מכך.

יש להדגיש כי תחשיב עלויות זה אינו לוקח בחשבון אבדן מלא של עבודה יצירתית, איחור בפרויקטים או באספקת שירותים אשר יכולים לנבוע כתוצאה מ
PDT.

בארגונים אשר בהם מרכיב העבודה היצירתית הנו גבוה כבתי תוכנה, מחלקות גרפיקה, משרדי עו"ד או משרדי רו"ח, אבדן יום עבודה יכול לגרום לנזקים מצטברים בהיקף ממוצע של כשלושה ימים. בארגונים מסוג זה יש להתקין פתרונות גיבוי המאפשרים שמירת העתקים של המידע מדי 30 עד 60 דקות ובכך למזער את הנזק למינימום נסבל.

מכיוון ופתרונות גיבוי לטייפ אינם מתוכננים לגיבויים תכופים בהיקף כזה הפתרון המתבקש, ברוב הארגונים, הנו גיבוי נתונים על דורותיהם לדיסק קשיח. הדיסק הקשיח הנו אחד המרכיבים שעלותו הולכת ויורדת מדי יום, ובמקביל הנפח הזמין הולך וגדל. מהירות הכתיבה והקריאה מהדיסק הקשיח הנה מהירה יותר מכל צורת אכסון אחרת, ואתור ושליפת הנתונים ממנו הם מיידיים.


לסיכום:

הגיבוי איננו המטרה העליונה שלנו בדיוק כפי שמערכת מחשב תקינה לחלוטין אך לא מתאימה למשתמשיה איננה המטרה, הגיבוי הנו רק אמצעי להמשכיות השירות. בכדי לספק המשכיות שירות עלינו להתאים פתרונות שחזור מהירים ולאו דווקא פתרונות גיבוי מהירים.

פתרונות הגיבוי וההישרדות חייבים להיות מתאימים לארגון על פי צרכיו, יכולתו והאיומים הסבירים להפסקת השירות. מערכי ההישרדות חייבים להיות מותאמים ליכולותיהם הטכניות של אנשי המחשבים בארגון והנהלים מתאימים לתנאי העבודה בארגון - לא ייתכנו נהלים נכונים אשר אנשי המחשבים אינם יכולים לקיימם במלואם ובמקרה כזה יש לשכתב את הנהלים עד להתאמתם למה שניתן לביצוע.

בתנאים המודרניים של איומי הפסקת שירות מגוונים כקריסת מערכות, קריסת מערכות גיבוי ואבדן כח חשמל יש להרחיב את מעגל האיומים הסבירים האפשריים גם לאיומי טרור למיניהם ולכלול אותם בניתוח הסיכונים של הארגון.

לארגון קטן שיש ביכולתו להקים מערכת חלופית קטנה באתר חלופי (בחלק מהמקרים ביתו של בעל העסק) אנו ממליצים לגבות מדי יום, גיבוי מלא לקלטות ולשחזר, מדי יום,  את מלא הקלטת למערכת החלופית. בצורה זו אנו גם בודקים את תקינות הקלטות והמידע שעל גביהן מידי יום וגם שומרים על מערכת חלופית תקינה ומוכנה לתפעול במידה ומערכת המחשב במשרד נגנבה או הושבתה. פתרונות פשוטים ולא יקרים אלו באים לידי ביטוי גם בארגונים גדולים ומסועפים, עם כי בסדרי גודל אחרים.

בתנאי המחייה של הארגון המודרני בו חלון זמן הגיבוי הולך וקטן ואיכות השחזור תופסת יותר ויותר חשיבות, יש לבנות מערכות גיבוי והתאוששות מתאימות המאפשרות גיבוי מידע מדי מספר שעות ולפעמים אף דקות ושחזור המידע על דורותיו השונים באופן מיידי מתוך מערכות דיסקים. בנוסף לכך יש לגבות את המידע לקלטות לשם שינוע אל מחוץ לאתר או לכספת למקרה של שריפה, גניבה או כל נזק טוטאלי אחר. במצב זה אנו מוצאים כיום את הפתרון השלם היחידי המאפשר שחזור מידע נקודתי או מלא בהתאם לצרכים ובעלויות נמוכות.

ניתן להוריד מאתר חברת צ'יף באינטרנט
http://www.bos.co.il  פתרון גיבוי ואחזור מידע לחלק מהבעיות שהוצגו כאן.

אתרים לעיון נוסף:

http://www.idc.com

http://www.contingencyplanningresearch.com

http://www.ironmountain.com

http://www.snwonline.com

http://www.infosecuritymag.com/articles/may00/departments1_note.shtml

 

Hit Counter