CISO พร้อมหรือยัง กับคำถามจากบอร์ดบริหาร เรื่องการฟื้นตัวของโครงสร้างพื้นฐานไอที

“บทความนี้จะอธิบายถึง แนวคำตอบที่มีความน่าเชื่อถือสูงสุดสำหรับ CISO ที่เตรียมไว้ตอบคำถามเมื่อบอร์ดบริหารทวงถามเรื่องเกี่ยวกับการฟื้นตัว ในสถานการณ์การหยุดชะงักของระบบ
ปัจจุบันองค์กรต้องพึ่งพาการให้บริการบนคลาวด์ และผู้ให้บริการอื่นๆ ที่เกี่ยวข้อง (Third-party provider) ที่เพิ่มมากขึ้น การทำความเข้าใจว่า ระบบไอทีขององค์กรทำงานอย่างไรในสภาพการใช้งานที่มากขึ้น ไม่ได้เป็นเพียงแค่ข้อกังวลทางด้านไอทีเท่านั้น แต่กลายเป็นความรับผิดชอบในระดับบอร์ดบริหาร (Board-level responsibility) ด้วย
เมื่อไม่นานมานี้ไฟฟ้าที่ดับเป็นวงกว้างได้ส่งผลกระทบต่อบางส่วนของประเทศสเปน, โปรตุเกส และฝรั่งเศสตอนใต้ ถือเป็นเครื่องเตือนใจที่ชัดเจนว่า โครงสร้างพื้นฐานที่มีความสำคัญนั้นเปราะบางเพียงใด แม้แต่ในภูมิภาคที่ได้พัฒนาแล้วก็ตาม
ความล้มเหลวของโครงข่ายไฟฟ้าทำให้การขนส่งหยุดชะงัก, บริการต่างๆ หยุดทำงาน และได้เห็นความเปราะบางของระบบดิจิทัลที่องค์กรส่วนใหญ่คาดว่า จะทำงานได้ เช่นเดียวกับการโจมตีทางไซเบอร์, สภาพอากาศที่เลวร้าย หรือการก่อวินาศกรรม ล้วนทำให้เกิดการหยุดชะงักในวงกว้างโดยที่ไม่มีการแจ้งเตือน
สำหรับเหล่าบอร์ดบริหารในแต่ละองค์กร การทำความเข้าใจกับการฟื้นตัวที่แท้จริงขององค์กร (Organization’s true resilience) นั้น ถูกจัดเป็นสิ่งที่ไม่สามารถมองข้ามได้ โดยเฉพาะในปัจจุบันแอปพลิเคชันที่สำคัญๆ ต่อการดำเนินงานในจำนวนมาก ต้องอาศัยโครงสร้างพื้นฐานบนคลาวด์
ต่อไปนี้คือ คำถามที่เหล่าบอร์ดบริหารควรถามผู้บริหารความมั่นคงปลอดภัยทางไซเบอร์ (CISO: Chief Information Security Officer) เกี่ยวกับการฟื้นตัว (Resilience) โดยในบทความมีมุมมองและรายละเอียดที่น่าสนใจ ซึ่งจะกลายเป็นคำตอบที่มีความน่าเชื่อถือได้สำหรับ CISO ทุกคน
โครงสร้างพื้นฐานด้านไอทีขององค์กรมีการฟื้นตัวที่แท้จริงหรือเพียงแค่สำรอง?
การสำรอง (Redundancy) เพียงอย่างเดียวนั้นไม่เพียงพอ การมีระบบสำรองที่ทำงานในภูมิภาคเดียวกับโครงสร้างพื้นฐานหลักขององค์กร อาจเป็นไปตามมาตรฐานการปฏิบัติตามข้อกำหนด แต่จะไม่สามารถป้องกันการหยุดชะงักเมื่อเกิดความล้มเหลวระดับใหญ่ในพื้นที่

ซึ่งความสามารถการฟื้นตัวที่แท้จริง (True resilience) หมายถึง ความหลากหลายทางภูมิศาสตร์ ซึ่งไม่ใช่แค่ในเมืองเท่านั้น แต่รวมถึงในภูมิภาคหรือแม้แต่พรมแดนของประเทศด้วย
จึงหมายความว่า ต้องทำงานร่วมกับผู้ให้บริการคลาวด์, ศูนย์ข้อมูลที่ให้บริการโครงสร้างพื้นฐานที่แยกจากกันทางกายภาพพร้อมแหล่งพลังงานอิสระ, ผู้ให้บริการเครือข่าย และโปรโตคอลในการทำงาน
ซึ่งองค์กรต่างๆ ยังต้องแน่ใจว่าผู้ให้บริการเหล่านั้นรักษากำลังไฟฟ้าสำรองที่เพียงพอ อันรวมถึงสัญญาที่มีกับเชื้อเพลิงพร้อมการรับประกันการเติมเชื้อเพลิงและการเข้าถึงลำดับความสำคัญในช่วงวิกฤต ทั้งนี้เพื่อแสดงให้เห็นถึงความสามารถการฟื้นตัว (Demonstrate resilience)
โดยบริษัทต่างๆ ต้องสามารถทนต่อการหยุดให้บริการไฟฟ้าในภูมิภาคได้ ไม่ส่งผลกระทบอย่างมีนัยสำคัญต่อการดำเนินงานของบริษัท ที่สำคัญการวางแผนในสถานการณ์ฉุกเฉิน (Scenario planning) ของการหยุดให้บริการไฟฟ้าหนึ่งชั่วโมง, หนึ่งวัน หรือหนึ่งสัปดาห์
อาจส่งผลกระทบต่อการดำเนินงานของบริษัทในสถานที่ต่างๆ นั้นมีลักษณะเป็นอย่างไร สิ่งที่ตามมาบริษัทจะได้รับข้อมูลที่เป็นประโยชน์และอาจใช้ระบุช่องโหว่ของบริษัท ซึ่งต้องนำมาแก้ไข
แผนความต่อเนื่องมีไว้เพื่อให้รอดพ้นจากความล้มเหลวในพื้นที่หรือเพียงเพื่อให้เป็นไปตามข้อกำหนด?
แผนความต่อเนื่องทางธุรกิจ (Business continuity plans) จำนวนมาก ได้รับการออกแบบมาเพื่อให้ผ่านการตรวจสอบ ไม่ใช่เพื่อทนต่อการหยุดชะงักในโลกแห่งความเป็นจริง สิ่งนี้จะชัดเจนยิ่งขึ้นอย่างเห็นได้ชัดระหว่างการหยุดให้บริการไฟฟ้าครั้งใหญ่ (Major outages) เมื่อมีความล่าช้าในการตรวจจับ, การพึ่งพาการสำรองที่ถูกทดสอบไม่เพียงพอ
หรือสมมติฐานที่เกี่ยวกับความเร็วในการกู้คืนที่เกิดความล่าช้าอันกลายเป็นวิกฤต องค์กรที่มีการฟื้นตัว (Resilience) ควรสามารถตรวจจับการหยุดชะงักได้ในทันที, ตอบสนองอย่างรวดเร็ว และดำเนินงานได้ในระดับที่ลดลง แต่ใช้งานได้จนกว่าจะสามารถกู้คืนได้อย่างสมบูรณ์
ซึ่งต้องมีการมองเห็นแบบบูรณาการในทุกสภาพแวดล้อม ไม่ใช่แค่ทีมโครงสร้างพื้นฐานเท่านั้น แต่ยังได้รวมถึงผู้บริหารที่ต้องเข้าถึงการรับรู้และสถานะของเหตุการณ์โดยตรงด้วย สิ่งสำคัญคือการนำระบบต่างๆ กลับมาออนไลน์นั้น ไม่ได้เกิดขึ้นในทันทีหลังจากหยุดให้บริการไฟฟ้าอย่างกะทันหัน
การนำระบบกลับมาออนไลน์อย่างปลอดภัยอาจเป็นกระบวนการที่ยืดเยื้อ โดยเฉพาะอย่างยิ่งเมื่อเกี่ยวกับหลายร้อยระบบหรือหลายพันระบบ เพื่อแสดงให้เห็นความพร้อมในการต่อเนื่องที่แท้จริง (Real continuity readiness) ฝ่ายบริหารต้องแสดงให้เห็นว่า บริการที่สำคัญสามารถดำเนินงานต่อได้
แม้ว่าโครงสร้างพื้นฐานในพื้นที่, ผู้ให้บริการ หรือแอปพลิเคชัน จะไม่สามารถใช้งานได้ ซึ่งเป็นผลมาจากแผนการกู้คืน (Recovery plans) นั้น ได้ถูกทดสอบแล้วว่าใช้งานได้ภายใต้สภาพการหยุดชะงักในโลกแห่งความเป็นจริง ไม่ใช่แค่การจำลองอยู่บนกระดาษเท่านั้น
ต้องรู้ว่า ผู้ให้บริการคลาวด์จะทำหน้าที่อย่างไรเมื่อทุกอย่างผิดพลาด?
การฟื้นตัวด้านไอที (IT Resilience) ขององค์กรนั้น ต้องพึ่งพาผู้ขายและผู้ให้บริการที่เกี่ยวข้องมากขึ้น อันหมายถึงฝ่ายบริหารต้องทำความเข้าใจกับการฟื้นตัวด้วยเช่นกัน ซึ่งการฟื้นตัวต้องได้รับการปฏิบัติเป็นเกณฑ์ในการเลือกที่สำคัญ (Key selection criterion) ไม่ใช่เรื่องที่มาคิดกันตอนหลัง
จึงควรพิจารณาการฟื้นตัวเป็นเกณฑ์หลักในการนำคัดเลือกผู้ขายโซลูชัน, การตัดสินใจในการจัดซื้อ และการประเมินความเสี่ยงอย่างต่อเนื่อง ด้วยข้อตกลงระดับการให้บริการ (SLA: Service-level agreement) เพียงอย่างเดียวไม่เพียงพอ
เพราะไม่ได้บอกผู้เกี่ยวข้องไว้ว่าจะทำหน้าที่อย่างไรเมื่อไฟฟ้าดับและไฟไม่กลับมาภายใน 24 ชั่วโมงคำถามที่ควรถามเพิ่มอย่างเช่น ผู้ให้บริการเป็นเจ้าของโครงสร้างพื้นฐานทั้งหมดหรือไม่? ผู้ให้บริการมีสถานที่ตั้งอยู่หลายแห่งบนพื้นที่ทางภูมิศาสตร์ที่กว้างขวางหรือไม่?
ผู้ให้บริการสามารถดำเนินงานได้นานแค่ไหนหากเกิดเหตุการณ์ร้ายแรงหรือไฟฟ้าดับ? และผู้ให้บริการต้องพึ่งพาสิ่งอื่นๆ อะไรบ้าง? เมื่ออ้างถึงสถิติระยะเวลาใช้งาน (Uptime statistics) โดยทั่วไปแสดงเป็นเปอร์เซ็นต์ สิ่งนี้คงบอกเล่าเรื่อง ราวได้เพียงบางส่วน
อนึ่งผู้ให้บริการที่ได้ให้ความสำคัญกับความน่าเชื่อถือและความปลอดภัย (Reliability and Security) อย่างชัดเจนเหนือสิ่งอื่นใด มักจะอยู่ในตำแหน่งที่ดีกว่าในการรับมือกับเหตุการณ์หยุดชะงักครั้งใหญ่ แม้ว่าการฟื้นตัว (Resilience) มักจะมาพร้อมกับราคาที่สูงกว่า แต่ก็ถือเป็นราคาที่คุ้มค่ากับการจ่าย ทั้งนี้เพื่อหลีกเลี่ยงช่วงเวลาแห่งการหยุดชะงัก, การสูญเสียทางธุรกิจ และที่สำคัญความเสียหายต่อชื่อเสียงที่อาจเกิดขึ้นกับบริษัท
ข้อคิดที่ฝากไว้
ข้อสรุปที่มีให้แก่เหล่าบอร์ดบริหารในแต่ละองค์กร กล่าวได้คือ การฟื้นตัว (Resilience) ไม่ได้หมายถึงการนำกลับมาสู่สภาพเดิมโดยเริ่มต้นจากศูนย์ แต่จัดเป็นการใช้มาตรการเชิงกลยุทธ์ในการทำงานร่วมกันของเหล่าผู้ให้บริการ ก็เพื่อลดการดำเนินงานในการนำกลับมาสู่สภาพเดิมโดยเริ่มต้นจากศูนย์องค์กรต่างๆ
ต้องแสดงให้เห็นว่าได้ทำการวางแผน, การทดสอบ และการลงทุน ในการเอาตัวรอดจากเหตุการณ์ที่ไม่คาดคิด ถึงแม้ไม่รู้ว่าจะเกิดขึ้นที่ไหน, เมื่อไหร่ หรืออย่างไร แต่ผู้เกี่ยวข้องก็ตระหนักอยู่เสมอว่าเหตุขัดข้องครั้งใหญ่นั้น…อาจจะมาถึง
อ่านบทความทั้งหมดของ น.อ.สรรสิริ สิริสันตคุปต์
Featured Image: freepik