מחפש גורם מסביר לתקלה והמלצה להתנהלות עם לקוח

nando

New member
מחפש גורם מסביר לתקלה והמלצה להתנהלות עם לקוח

  1. לפני כחודשיים התקנתי ללקוח שרת NAS חדש עם 4 דיסקים חדשים מהסדרה האדומה של Western Digital, (סדרה יעודית לשרתי NAS) חדשים. כעבור חודש המכשיר מת. היבואן החליף את המכשיר בידיעה שהדגם הזה הוא מסדרת ייצור בעייתית. שהורגת את הלוח כך שהמכשיר מסרב להדלק.
  2. המכשיר התחליפי, גם חדש, כבור שבועיים, אינו מאפשר גישה אל ממשק המשתמש שלו, כאשר הדיסקים בתוכו, הוא כן מאפשר לראות כנדרש, את ממשק המשתמש היותר מוגבל, שזמין במצב זה שבו הדיסקים אינם במקומם.
  3. במעבדת היבואן הוכנסו הדיסקים לשרת שלישי שבו מערכת הקבצים של תצורת ה RAID, נאלצו לעבור בניה מחדש והבוםה כשהמכשיר הצליח לעלות, התברר ששני דיסקים צידיים מתוך ארבעה, דורשים החלפ בגלל פגיעות בסקטורים של הדיסקים. הדיסקים הוחלפו במסגרת האחריות.
  4. חשוב לציין שבתקלה השניה לפי הלוגים שלו, לא כובה לפני שהורד לרצפה שם מצאתי אותו. בחדר המאד לא גדול, בוצעו עבודות נגרות ופירוק והרכבה של מזגן. (ההנחה שלי היא שלמרות שהלקוח דוחה את האפשרות שנתנה מכה למכשירף בזמן פעולת הדיסקים). אגב, לקוח שאני מאוד מכבד את מילתו.
  5. בדיקת מהנדס חשמל בעל רשיון בודק, לא שללה אפשרות של בעיות בפנים הבית או כאלה התלויות באספקת המתח לבית, בגלל אופי תשתיות המקום.
  6. חשוב לציין שהלקוח שילם לא מעט כסף על האינטגרציה של המכשיר אך גם על המון תקורות ומשימות מחשוב נוספות שנתבקשתי על-ידו לבצע.
א. אשמח לדעת האם משהו התנסה בתופעה כזו של מוות של שני דיסקים חדשים סימולטנית. ומה יכולה הייתה להיות הסיבה למות הדיסקים?

ב. הטיפול התקלה היה ממושך ובמעורבותי. נדרשה עבודה משותפת שלי עם איש המעבדה אצלי בעסק ואחר כך אצל היבואן השרת עד שהמכשיר הוחזר למצב תפקודי בסיסי ואז בודדנו את הבעיה. וכל התהליך הכרוך בהחלפת דיסקים הפועלים במערך RAID.

ג. לדעתי מקור התקלה נעה על הקשת שבין שמוש לקוי במוצר לבין כוח עליון. ועל כך ניתן מענה במסגרת האחריות. האם הגיוני לחייב את הלקוח שוב על הזמן הנדרש לפעולת שחזור החומרים שנדרשה, בעקבות כשל החומרה? האם סביר לחייבו שוב עבור הזמן הנדרש לבצוע ההגדרות, על תהליך איתור התקלה והשבת המכשיר לפעולה?

בתשובה אשמי שתשקלו את נדירות המצב שבו שני דיסקים נדפקים.

תודה לעונים!
 

SysAdmin1

New member
את הגורם המדוייק לתקלה אפשר לדעת רק, אם בוחנים לעומק את...

את הגורם המדוייק לתקלה אפשר לדעת רק, אם בוחנים לעומק את הציוד התקול, אל ההתראות שנרשמו ביומן האירועים שלו ואת הסביבה שבה הוא פעל, אבל לפי מה שסיפרת כאן כבר ניתן לזהות מספר רב של בעיות מהותיות, שאם לא יפתרו אותן, אז המקרה זה יחזור על עצמו פעם אחרי פעם.
דבר ראשון, כל דיסק קשיח חדש שמתקינים במערכת, לפני זה צריך לעבור אבחון מלא של פני הדיסק ( שנמשך מספר שעות ) ורק, אם הוא נמצא תקין אפשר לנסות להתקין אותו. אם לא מדובר על דיסקים עם ממשק SAS, אלה דיסיקים עם ממשק SATA, אז מראש מדובר על דיסקים שלא נועדו לרמת אמינות גבוהה.
דבר שני, אסור בתכלית האיסור, שבמקום שבו פועלת מערכת מחישוב כזו של אחסון נתונים יתבצעו עבודות של נגרות, ריתוך, זגגות, מסגרות, ניסור בטון מזוין פיצוצי תוך מבניים מבוקרים, הצפת מבנה חלקי או מלא לצורך בדיקות אטימות שלו וכו'
, תוך כדי כך שמערכת זו נמצאת במבנה זה.
בר שלישי, מערכת כזו, חייבת לעבוד רק ממקור חשמל של אל-פסק אונליין ולא מכל מקור מתח אחר. גם למערכות NAS קטנות ניתן לרכוש אל-פסק שמחירו יהיה פחות מ 1K של דולרים, ואפילו במקום כמו KSP:
https://ksp.co.il/?uin=36958&select=.1116..226..2578.
בכל עסק שיש לו נתונים שיש להם חשיבות מעבר לנתונים של תוצאות משחקי סוליטר, נדרשת מערכת של גיבויים תקינים עם דורות מנוהלים בצורה מבוקרת. כבר שנים שניתן להשתמש לצורך זה, למשל בקלטות LTO-8 לצורך זה, שנפח של כל קלטת הוא 12TB\30TB לקלטת בודדת.
https://www.amazon.com/gp/product/B...a4-622e-5259-aec8-04ff058f92f4&pf_rd_i=229180
ברגע שקיים גיבוי תקין ניתן לשחזר תוך מספר שעות במקום את כל החומר בלחיצת כפתור ומבלי שיש צורך לקחת את המערכת למעבדה. שיחזור כזה יהיה אפשרי גם, אם כל המערכת של NAS הושמדה כליל.
דבר נוסף, נדרש להגדיר התראות למאייל ולסלולר של גורם ניהולי במקום ושל גורם טכני שמתחזק, להגדיר שליחה של ארועים כמו בעיות SMART בדיסקים, שינוי מצב של מערך RAID, גיבוי שלא התבצע בצורה תקינה, מצב תקינות המצברים של UPS וכו'.
אלה הן כמה מכללי יסוד הלא מורכבים של ניהול מערכות מידע בסיסיות, שקיימות מזה יותר משלושה עשורים ושמונעות שלא יקרה מצב כפי שתיארת או גרוע מזה.
 

cheif

Member
מנהל
המצב שאתה מתאר נדיר אך אפשרי

המצב שאתה מתאר נדיר אך אפשרי, במיוחד אם שני הדיסקים הם מאותה סדרת יצור. כשאני בונה NAS אני משתדל לא לרכוש את כל 4 הדיסקים מאותו יצרן ומאותה סדרת יצור כיוון שאם יש פגם בסדרה, ההסתברות לתקלות עולה. ב-NAS של 4 דיסקים כדאי לרכוש מ-2 או אפילו 3 יצרנים שונים ובטח שלא מאותה סדרת יצור - במצב הזה - אם יש פגם בסדרה, אתה לא מאבד במכה אחת את כל המידע. מעבר לכך, NAS עובד, שיש בו דיסקים מכנים, לא מזיזים מהמקום ללא כיבוי מסודר ודואגים לאספקת חשמל סדירה דרך UPS.
 

nando

New member
אתייחס כאן גם לדבריי Sysadmin1 ומזכיר שאלה שהצגתי בתחילה

אנסה להתייחס בצורה לתשובות שנתתם לי שניכם ולהוסיף שאלות

בנוגע לרגישות המכשיר, העבודות שנעשו בחדר הדבר הובהר בזמן ההתקנה הראשונית.הלקוח הוזהר מלכתחילה לנהוג בזהירות עצומה, בטח לא לטלטלו שלא לדבר על הנחתו ברצפה.

באופן כללי לגבי הפתרון שנתתי ללקוח מדובר בחברה קטנה שאני שבוודאות לא התחברו אל השרת יותר מ 8 משתמשים, בו זמנית והשימוש שלהם, הוא אחסון קבצי אופיס ופתיחתם מתוך השיתוף שהשרת אפשר להם. הפתרון יותר ממתאים

כפי שציינתי, נעשה שימוש בדיסקים מהסדרה האדומה של WD סדרה שנקראת NAS ware כלומר ייעודית לשימוש המדובר, קבעתי מערך אחסון בתצורת RAID 5 המעניק יחס מיטבי בין נפח אחסון לשרידות הנתונים

בנוגע לשחזור המידע מן הענן בלחיצת כפתור, מצאתי פתרון צד ג' של חברה בשם Coudeberry. איזה פתרון מצא אחד מכם?

אחד מכם ציין בצדק , שזו אכן תקלה נדירה, ואני מוסיף שהמורכבות היא כזו שהיבואן עצמו, התקשה לשים את האצבע על מקור התקלה,בהמשך התהליך המורכב של החזרת המכשיר לחיים אחר כך החזרת ההגדרות של הרשאות וכושהיה צריך להקימם מחדש ולבסוף מיקום החומר מחדש, היה תהליך ממושך שגבה שעות עבודה ממושכות


שאלה לגבי השירות וגביית עלויות בעקבות התקלה

עם תחילת הטמעת, NAS "הומלכתי", כאיש ה IT הארגון. בזמן נוכחותי צצו תקלות שדרשו מענה מידי הן בכדי לאפשר את הטמעת המכשיר ואחרות לא קשורות. הכול נעשה בידיעת המנכ"ל ונצברו שעות עבודה רבות ששולמו ללא מצמוץ.

כיום אותו ריבוי השעות, נתפס בעיניו כמשויךת (לדעתי שלא בצדק), לעבודת ההטמעה וכמובן שאם כך מסתכלים על זה, אזי זו הטמעה יקרה.

אם הייתה רשלנות כלשהי, בוודאות אינה שלי ואם מדובר בכוח עליון, (לצערי זה שוב לא אני... הלוואי והייתי ��).מצד שני, הלקוח כבר סבל שלא בטובתו תקלה ראשונה (שטופלה מהר) וכיום על הנוכחית.

השאלה מה המקובל בקטע של החיוב במצבים כאלה?

שוב תודה לעונים!
 

SysAdmin1

New member
טוב, אצטרך לחדד עוד הפעם את מה שכבר כתבתי...

בקשר לנושא של מי הרשלנות אני רק אגיד שכמו שכבר כתבתי לפני זה, הגדרה של רשתנות זה לחבר שרת NAS לחשמל ללא מערכת אל-פסק ONLINE. רשלנות, היא גם לא לבחון את פני שטח הדיסק של כל הדיסקים לפני שמחברים אותם למערך. רשלנות, היא לא להפעיל מנגנון שליחת ההתראות וללא לזהות את הבעיה לפני שהיא כבר פוגעת בעבודה יומיומית של העסק. ובטח, רשלנות זה לא לנהל מערך של דורות גיבויים תקינים.
קשר לגיבויים לענן. אז סוג כזה של גיבויים הוא כלל לא אופצייה בישראל לעסק קטן, בגלל שזה לא יישים בשבילו מבחינת המחיר החודשי להחזיק בקו תמסורת נדרש לכך וקווים ביתייים או קווים שמיועדים ל SOHO או ל SMB, פשוט לא מתאימים לכך. לצורך ההבהרה, קו ביתי או SMB כולל מהירות של עד 5M ( זה המהירות של שליחה לרשת האינטרנט ) ובקו כזה אין שום אפשרות לבצע גיבויים מעבר לנפחים של כונני 1.44'' .
מה וא הפתרון גיבוי האפשרי כבר כתבתי לפני זה.
 

nando

New member
למדתי כאן משהו. אגב מה זה

אלפסק או ליין ומהםטלה שלא....
 
און ליין זה אומר שהחשמל למכשיר יוצא מהבטריה של האל פסק

אוף ליין זה אומר שהחשמל למכשיר מגיע ישירות מהקיר והאל פסק רק מנטר את הזרם ואם הוא מזהה בעיה אז הוא מנתק את החיבור מהקיר ועובר לחיבור מהבטריה. הבעיה היא שיש תמיד חלקיק זמן בין ההעברה שעלול לאפשר לבעיות מהקיר לפגוע במכשיר לפני שהאל פסק מתערב.
 

SysAdmin1

New member
מן הסתם שאל-פסק שהוא מוגדר כאוף ליין, לא משמש למיחשוב,...

מן הסתם שאל-פסק שהוא מוגדר כאוף ליין, לא משמש למיחשוב, אלה, אם כן מדובר על אל-פסק שלא חיברו אותו לחשמל.

מימוש מכשיר UPS, שהוא לא ONLINE, בהקשר של מערכות מיחשוב, זה UPS line interactive, עם כל הבעיות שכבר פירטתי לפני זה. על אלפסקים שהם אוף ליין אפילו לא מדברים בהקשר זה.
http://www.pcguide.com/ref/power/ext/ups/typesLineInt-c.html
 

SysAdmin1

New member
כל תורת האל-פסקים על רגל אחת...

מערכות אל-פסק קיימות בשני שיטות מימוש. אחת מהן, היא line interactive, שבמסגרתה צרכן ניזון ממתח רשת בשיגרה ומתמתג לסוללות בחירום. מכשירים כאלה זולים מאוד, אבל התשלום האמיתי כאן הוא בזה, שאל-פסקים כאלה פשוט שורפים את המכשירים שמחוברים עליהם, מכיוון שכל קפיצת מתח שעוברת ברשת לא רק שלא נעצרת בכניסה לאל-פסק, אלה גם מוגברת על ידו. והמימוש השני, הוא שיטה בשם ONLINE, שבמסגרתה הצרכן גם בשיגרה וגם בחירום ניזון ממתח שמיוצר מסוללות של האל-פסק. במקרה כזה נוצר גל סינוס טהור על ידי המרה כפולה. כמובן שמחיר של מערכות על-פסק כאלה הוא יותר יקר, אבל המחיר הכולל הוא יותר זול בגלל ששומרים על הציוד היקר ועל הנתונים של נמצאים בדיסקים ובשרתים. בכל מקרה מדובר על נושא שהוא בין היסודות של הכרת המחשב. מקודם כבר נתתי קישור למוצר פשוט ממולץ שניתן לרכוש אותו ולחבר עליו גם AGENT רשת ולשלוט עליו מרחוק ולקבל ממנו התראות.
גם מומלץ ביותר להזמין איש מקצוע שמכיר טיפה את תחום המיחשוב, בשביל שהוא יוכל להחליט איזה מנגנונים ומכשירים כדאי לכרוש לעסק המדובר וגם הוא יוכל לחבר הכל ולהגדיר את המערכת. אחרת כבר בזמן הקרוב יכול להיות שהמצב יהיה עוד יותר גרוע.

 

cheif

Member
מנהל
לגבי החיוב ו-CLOUDBERRY

אני מבין שהשקעת בעניין השחזור זמן רב ולא קבלת תמורה לכך. השאלה אם לחייב ובכמה, תלויה במערכת היחסים שלך עם הלקוח והצפי שלך לעתיד עימו. בכל מקרה, לפי התיאור שלך, נדמה לי שיש לך "אחריות תורמת" לבעיות בכך שה-NAS לא היה מחובר ל-UPS ואולי גם לא היתה מערכת התראות פעילה ששלחה לך הודעות בזמן אמת. תשקלל זאת לתוך היקף החיוב שאתה חושב שמגיע לך ואולי תראה בכך (או לפחות בחלק מכך) "שכר לימוד".

לגבי CLOUDBERRY - אני משתמש בתוכנה כבר זמן רב ומוצא אותה טובה מאוד לקטסטרופות מהסוג שאתה מתאר. גם את ה-NAS הפרטי שלי ואף את חלק מהמידע על הדיסק שלי, אני מגבה באמעצות התוכנה הזאת, לשני עננים שונים. בגיבוי הראשוני התהליך לוקח זמן אבל הגיבויים האינקרמנטלים הם די מהירים. גם כאן אני ממליץ לך להפעיל את מערכת הדיווח האוטומטית של CLOUDBERRY שמדווחת לך על הצלחת הגיבוי ועל תקלות שחו"ח התרחשו.
 

nando

New member
אדייק את התיאור

אכן השקעתי זמן בשחזור ואני עתיד לקבל תמורה. השאלה מה יהיה שיעורה.
אני מאמין ומקווה שאמשיך לעבוד איתו עוד הרבה זמן. מבחינתי העבודה הזו איתו דומה למשרת אמון.

זה לא נסיון לחמוק מאחריות, להיפך, מעולם לא הייתה לי לקחת אחריות, מוקדם מדי כמו כשעוד חשבתי שהתקלה נבעה מפגיע שלכאורה יצרתי בנסיון להתקין כלי שנועד לפתרון לצורך לצור ג'ובים של גבוי, התומכים ב File Versioning, (דבר החסום כשיעד הג'וב הוא הענן),

עיקר השאלות שהעלתי, היו דרך לבחון, עד כמה טעיתי. וכמה עלי לשלם על זה בפועל בוויתור על חלק משכרי מתוך השלמה עם מה שהוגדר כאן כאחריות מתרימה בגלל העדר UPS או לחילופין כשכר לימוד. וכמה מזה הוא ויתור לשם שמירה על הלקוח.

לגבי cludeberry, זה מה שהשתמשתי רק נפלא מעיניי להבין איך זה שאין עוד פתרונות.
 

cheif

Member
מנהל
לגבי UPS

כאן המצב הרבה יותר קל וברור - תרכוש ONLINE UPS שנותן גל סינוס טהור מחברה טובה וידועה. המחירים לא בשמיים (בין 2,000 ל-3,000 שקל לאחד שמתאים למערכת NAS) והיתרונות שתקבל (במיוחד השקט הנפשי) שווים זאת.

בדרך כלל גם ב-UPS עצמו יש מערכת דיווח על תקלות באספקת מתח וכדאי שתפעיל אותה. בנוסף, במקרה ומתרחשת הפסקת חשמל ארוכה, תוודא שה-UPS יודע לכבות את ה-NAS באופן אוטומטי ומסודר.

חשוב מאוד לבצע אחת לתקופה (חודש זה סביר) בדיקה שה-UPS עובד כצפוי ומסוגל לתת מתח ל-NAS ללא חיבור לזרם החשמל ולכבות אותו אם הסוללות גמורות. אחת לכמה שנים ( בין שנתיים ל-3) צריך גם להחליף את המצברים עצמם.

אני מעדיף את המוצרים של APC אבל גם על EATON שמעתי חוות דעת חיוביות.
 

SysAdmin1

New member
אסור בתכליט האיסור להשתמש בדיסקים שונים במערך RAID ו...

אסור בתכליט האיסור להשתמש בדיסקים מסוגים שונים או מיצרנים שונים במערך RAID אחד ובטח שבהתקן NAS אחד. עירבוב של דיסקים שונים במערך שמותף זה מטכון בטוח לצרות, לביצועים ירודים של המערך ובסופו של דבר לאבוד הנתונים.
 

cheif

Member
מנהל
רשמתי לפני את ההערה שלך...

... יחד עם זאת, אני אתעלם ממנה כיוון שהניסיון שלי ושל רבים אחרים הוא אחר לגמרי. אתה מוזמן להתעמק בנושא הזה אצל יצרניות ה-NAS השונות ולראות את ההתיחסויות שלהן ושל המשתמשים לנושא הזה. בשולי הדברים, מעניין אותי לדעת מה אתה עושה כאשר במערך שלך הולך אחרי תקופה דיסק והדגם שהתקנת בזמנו אינו זמין...
 

SysAdmin1

New member
אתה יכול להמשיך להתעלם מההסברים של אנשי מקצוע, אבל...

אתה יכול להמשיך להתעלם מההסברים של אנשי מקצוע ומכללי עבודה בסיסיים של IT, אבל מי שמעתלם מההסברים כאלה, בסופו של דבר רק הוא זה שסובל מזה.
 

cheif

Member
מנהל
אני לא מתעלם

להפך, אני מגיב בהרחבה למה שאתה כותב. זה שאתה לא מקבל את דעתי, שנובעת מהניסיון והידע המעשי שלי, זו בעיה שלך.
 
למעלה