ניתוקים/נפילות ואובדן/חורבן מידע בSAN/NAS

lavifighter

New member
ניתוקים/נפילות ואובדן/חורבן מידע בSAN/NAS

שמעתי מאחד האנשים שאני עובד איתם שיש אצלו בעיה שהפסקות חשמל גורמות לא לא אחת לcorruption בשרתי ווינדוס(פיזיים וויטרואליים).
עכשיו אומנם חלק מהמידע מהram אמור להצליח לצאת לאחסון במעט חשמל שיש(כפי שהסברתם לי פעם) וגם יש journal, אבל אז עלתה לי מחשבה:
ומה אם זה אחסון מרכזי והאחסון הוא זה שנפל? הרי במקרה כזה לram אין לאן להישפך!
ויותר גרוע: כל מיני דברים כמו jorunal לא ממש עובדים אם אין להם לאן להיכתב(שכן האחסון מנותק).
וזה העלה לי מחשבה נוספת: בווינדוס(ואני מאמין שגם בלינוקס) אפשר ולפעמים צריך לשנות את ערך הtimeout לדיסקים מבחינת מערכת ההפעלה. עכשיו, אין בזה סיכון לאובדן מידע? הרי בזמן של הtimeout(כמות שניות מסוימת, אולי אפילו דו ספרתית אני לא זוכר) המידע אמור "להיאגר" איכנשהו ואז ללכת לאיבוד כשהשרת נכבה... אז איך זה שהמצב לא קורה?
אשמח להסבר, גם אם זה מורכב.
*אני יודע שיש גיבויים וכדומה, אבל לא לזה הכוונה שלי כמובן.
 

DuuGi

New member
קודם כל תנשום.

מנגנוני ההגנה בסטורג'ים מנפילות חשמל הרבה יותר אמינות מבשרת רגיל.
דרך אגב כשדיברנו בעבר על מנגנוני הגנה דיברנו בעיקר על בקרי רייד שיש בהם סוללה שמאפשרת את שמירת המידע לפני הורדת המערכת.

עכשיו לגבי הפסקות חשמל, לא סתם המציאו את הUPS . מערכות קריטיות צריכות להיות מחוברתו לUPS עם טריגר שמוריד את השרתים בצורה מסודרת אם לא חוזר החשמל תוך זמן מוגדר.

מערכות מחשב ובין היתר דיסקים רגישות לספייקים בחשמל אז אכן אם האיש הזה שאתה מכיר לא דואג לUPS, סביר להניח שהמחשבים שלא יפגעו מנפילות חשמל.

צריך להבין שנפילות חשמל זה לא רק הפסקת חשמל, זה גורם לספייקים בחשמל שיכולים לשרוף מעגלים והUPS דואג שהספייקים האלו לא יעברו לשרתים.
 

lavifighter

New member
כל זה נכון, אבל לא ענה לי על השאלה

קודם כל תודה על ההסבר... גם הפעם וגם פעם שעברה.
כעת, אני מנסה להבין מה קורה בתרחיש הבא:
שרת מחובר לSAN ויש לו timeout של 30 שניות(אם אני זוכר נכון זה הסטנדרט לפחות בווינדוס ווירטואלי).
הSAN מתנתק.
מה קורה בזמן ה-30 שניות האלה? לאן המידע נשמר? אם זה לram, אז אין פה סיכון שכאשר הזמן ייגמר החצי דקה הזאת תלך לאיבוד? וjournal לא עוזר פה מן הסתם(שכן אין לו לאן להיכתב).
 

lavifighter

New member
אני די משוכנע שבזמן זה(למשל "קפיצת" ראש באחסון אקטיב-פאסיב)

המערכות ממשיכות לקבל ack... הייתי נכנס ליותר פרטים אבל אני לא יודע מה חסוי ומה לא(לגבי נטאפ, שם אני מכיר את זה טוב יחסית מצד האחסון). אולי זה תלוי באפליקציה(או במערכת ההפעלה/מערכת הקבצים) האם זה מורגש או לא שאין ack לזמן קצר?
 

F00D Is G00D

New member
אם היה נשלח ACK כלשהוא היה משתחרר ה HOLD TIMEOUT

מתוך
http://www.staff.uni-mainz.de/tacke/scsi/SCSI2-06.html

6.6.5 COMMAND COMPLETE
The COMMAND COMPLETE message is sent from a target to an initiator to indicate that the execution of an I/O process has completed and that valid status has been sent to the initiator. After successfully sending this message, the target shall go to the BUS FREE phase by releasing the BSY signal. The target shall consider the message transmission to be successful when it detects the negation of ACK for the COMMAND COMPLETE message with the ATN signal false.
NOTE 37 The I/O process may have completed successfully or unsuccessfully as indicated in the status.



6.1.3.1 SELECTION time-out procedure
Two optional selection time-out procedures are specified for clearing the SCSI bus if the initiator waits a minimum of a selection time-out delay and there has been no BSY signal response from the target:
a) Optionally, the initiator shall assert the RST signal (see 6.2.2);
b) Optionally, the initiator shall continue asserting the SEL and ATN signals and shall release the DATA BUS. If the initiator has not detected the BSY signal to be true after at least a selection abort time plus two deskew delays, the initiator shall release the SEL and ATN signals allowing the SCSI bus to go to the BUS FREE phase. SCSI devices shall ensure that when responding to selection that the selection was still valid within a selection abort time of their assertion of the BSY signal. Failure to comply with this requirement could result in an improper selection (two targets connected to the same initiator, wrong target connected to an initiator, or a target connected to no initiator).
6.1.4 RESELECTION phase
RESELECTION is an optional phase that allows a target to reconnect to an initiator for the purpose of continuing some operation that was previously started by the initiator but was suspended by the target, (i.e. the target disconnected by allowing a BUS FREE phase to occur before the operation was complete).
6.1.4.1 RESELECTION
Upon completing the ARBITRATION phase, the winning SCSI device has both the BSY and SEL signals asserted and has delayed at least a bus clear delay plus a bus settle delay. The winning SCSI device becomes a target by asserting the I/O signal. The winning SCSI device shall also set the DATA BUS to a value that is the logical OR of its SCSI ID bit and the initiator's SCSI ID bit. The target shall wait at least two deskew delays and release the BSY signal. The target shall then wait at least a bus settle delay before looking for a response from the initiator.
The initiator shall determine that it is reselected when the SEL and I/O signals and its SCSI ID bit are true and the BSY signal is false for at least a bus settle delay. The reselected initiator may examine the DATA BUS in order to determine the SCSI ID of the reselecting target. The reselected initiator shall then assert the BSY signal within a selection abort time of its most recent detection of being reselected; this is required for correct operation of the time-out procedure. The initiator shall not respond to a RESELECTION phase if bad parity is detected. Also, the initiator shall not respond to a RESELECTION phase if other than two SCSI ID bits are on the DATA BUS.
After the target detects the BSY signal is true, it shall also assert the BSY signal and wait at least two deskew delays and then release the SEL signal. The target may then change the I/O signal and the DATA BUS. After the reselected initiator detects the SEL signal is false, it shall release the BSY signal. The target shall continue asserting the BSY signal until it relinquishes the SCSI bus.
NOTE 22 When the target is asserting the BSY signal, a transmission line phenomenon known as a wired-OR glitch may cause the BSY signal to appear false for up to a round-trip propagation delay following the release of the BSY signal by the initiator. This is the reason why the BUS FREE phase is recognized only after both the BSY and SEL signals are continuously false for a minimum of a bus settle delay. Cables longer than 25 m should not be used even if the chosen driver, receiver, and cable provide adequate noise margins, because they increase the duration of the glitch and could cause SCSI devices to inadvertently detect the BUS FREE phase.
6.1.4.2 RESELECTION time-out procedure
Two optional RESELECTION time-out procedures are specified for clearing the SCSI bus during a RESELECTION phase if the target waits a minimum of a selection time-out delay and there has been no BSY signal response from the initiator:
a) Optionally, the target shall assert the RST signal (see 6.2.2);
b) Optionally, the target shall continue asserting the SEL and I/O signals and shall release all DATA BUS signals. If the target has not detected the BSY signal to be true after at least a selection abort time plus two deskew delays, the target shall release the SEL and I/O signals allowing the SCSI bus to go to the BUS FREE phase. SCSI devices that respond to the RESELECTION phase shall ensure that the reselection was still valid within a selection abort time of their assertion of the BSY signal. Failure to comply with this requirement could result in an improper reselection (two initiators connected to the same target or the wrong initiator connected to a target).​
 
למעלה