Thursday, July 17, 2025
AIGenerative AINEWSServersTechnology

Red Hat AI Inference Server ปลดล็อก Generative AI บน Hybrid Cloud

Red Hat AI Inference Server ขับเคลื่อนโดย vLLM เพิ่มประสิทธิภาพด้วยเทคโนโลยีของ Neural Magic มอบการคาดการณ์ประมวลผล AI ที่เร็วขึ้น มีประสิทธิภาพสูง และคุ้มค่าใช้จ่าย ทำงานได้กับทุกไฮบริดคลาวด์

ร้ดแฮท ประกาศเปิดตัว Red Hat AI Inference Server (เซิร์ฟเวอร์ AI ที่ได้รับการฝึกอบรมล่วงหน้าเพื่อทำการคาดการณ์และตัดสินใจแบบเรียลไทม์) ก้าวสำคัญที่จะทำให้ Generative AI กลายเป็นเทคโนโลยีที่ใครก็ใช้ได้บนไฮบริดคลาวด์ทุกแห่ง 

โซลูชันใหม่นี้นำเสนออยู่ใน Red Hat AI Inference Server ระดับองค์กรที่เกิดจากโปรเจกต์จาก vLLM community และเร้ดแฮทเพิ่มประสิทธิภาพด้วยการผสานรวมเข้ากับเทคโนโลยี Neural Magic ทำให้มีความเร็วมากขึ้น 

ช่วยเพิ่มประสิทธิภาพให้ การทำงานของ AI accelerator หรืออุปกรณ์ฮาร์ดแวร์ชิ้นพิเศษ มักจะเป็นชิป ที่ได้รับการออกแบบมาเพื่อปรับปรุงประสิทธิภาพของแอปพลิเคชันปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่องจักร (ML) และคุ้มค่าใช้จ่าย เป็นการตอบวิสัยทัศน์ของเร้ดแฮทในการมอบการใช้งานโมเดล Gen AI ใดๆ บน AI accelerator ใดๆ ก็ได้ บนทุกสภาพแวดล้อมคลาวด์ 

แพลตฟอร์มที่ล้ำหน้านี้ช่วยให้องค์กรต่างๆ ใช้และสเกล Gen AI สู่การทำงานเป็นรูปธรรมได้อย่างมั่นใจมากขึ้น ไม่ว่าจะใช้งานแบบสแตนด์อโลน หรือผสานเป็นส่วนประกอบของ Red Hat Enterprise Linux AI (RHEL AI) และ Red Hat OpenShift AI ก็ตาม

Inference Server เป็นเครื่องมือทำงานที่สำคัญของ AI โดยโมเดลที่ผ่านการเทรนล่วงหน้าจะแปลงข้อมูลให้เป็นการใช้งานในสถานการณ์จริง ซึ่งเป็นจุดสำคัญของการปฏิสัมพันธ์กับผู้ใช้ ที่ต้องการการตอบสนองอย่างฉับไวและแม่นยำ 

การที่โมเดล Gen AI ทั้งหลายขยายตัวอย่างรวดเร็วตามขนาดการใช้งานจริงและมีความซับซ้อน ทำให้การประมวลผล คาดการณ์ หรือตัดสินใจ อาจกลายเป็นคอขวดที่เป็นอุปสรรคสำคัญ สิ้นเปลืองทรัพยากรฮาร์ดแวร์ และเป็นเหตุให้การตอบสนองไม่มีประสิทธิภาพ 

ทั้งยังทำให้ค่าใช้จ่ายในการดำเนินงานเพิ่มขึ้น ดังนั้น Inference_Server ที่มีประสิทธิภาพแข็งแกร่งไม่ใช่สิ่งฟุ่มเฟือยอีกต่อไป แต่เป็นสิ่งจำเป็นที่จะช่วยปลดล็อกให้ได้ใช้ศักยภาพที่แท้จริงของ AI ในวงกว้าง และการใช้งานที่ง่ายขึ้นอย่างมากจะช่วยขจัดความซับซ้อนที่ซ่อนอยู่ได้

เร้ดแฮทเจาะจงจัดการความท้าทายเหล่านี้ด้วย Red Hat AI Inference_Server ซึ่งเป็นโซลูชันการอนุมานแบบโอเพ่นที่ออกแบบมาเพื่อมอบประสิทธิภาพที่สูง มีเครื่องมือบีบอัดและเพิ่มประสิทธิภาพโมเดลที่มีประสิทธิภาพชั้นนำติดตั้งมาพร้อม 

นวัตกรรมนี้ช่วยเสริมให้องค์กรใช้สมรรถนะของ Gen AI ได้อย่างเต็มที่ด้วยการมอบประสบการณ์การตอบสนองที่ดีขึ้นอย่างมากให้กับผู้ใช้ และผู้ใช้มีอิสระในการเลือกใช้ AI accelerators เลือกใช้โมเดลและสภาพแวดล้อมไอทีได้ตามต้องการ

vLLM: การขยายนวัตกรรมด้านการคาดการณ์

Red Hat AI Inference_Server สร้างจากโปรเจกต์ vLLM ชั้นนำในวงการที่เริ่มต้นพัฒนาโดย University of California, Berkeley เมื่อกลางปี พ.ศ. 2566 โปรเจกต์ของคอมมิวนิตี้นี้ มอบการอนุมาน Gen AI ที่มีปริมาณงานในช่วงเวลาหนึ่งๆ ที่สูง (high-throughput Gen AI inference) รองรับอินพุตขนาดใหญ่, multi-GPU model acceleration, การแบทช์ต่อเนื่อง และอื่นๆ อีกมาก

vLLM สนับสนุนการใช้งานในวงกว้างกับโมเดลต่างๆ ที่เปิดเป็นสาธารณะ ควบคู่กับการบูรณาการเข้ากับโมเดลชั้นนำต่างๆ ตั้งแต่ day zero ซึ่งรวมถึง DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi และอื่นๆ รวมถึงโมเดลการใช้เหตุผลระดับองค์กรแบบเปิด เช่น Llama Nemotron

นับได้ว่าเป็นมาตรฐานที่ได้รับการยอมรับและใช้กันโดยทั่วไปสำหรับนวัตกรรมการอนุมาน AI ในอนาคต การที่ผู้ให้บริการโมเดลระดับแนวหน้าต่างใช้ vLLM มากขึ้น ทำให้ vLLM มีบทบาทสำคัญต่ออนาคตของ Gen AI 

การเปิดตัว Red Hat AI Inference Server

Red Hat AI Inference_Server มัดรวมนวัตกรรมชั้นนำของ vLLM และหลอมรวมเข้ากับความสามารถระดับองค์กรของ Red Hat AI Inference_Server มีให้บริการทั้งแบบสแตนด์อโลนในรูปแบบคอนเทนเนอร์ หรือ ให้บริการเป็นส่วนหนึ่งของ RHEL AI และ Red Hat OpenShift AI

Red Hat AI Inference_Server มอบการกระจาย vLLM ที่แข็งแกร่ง และใช้ได้กับสภาพแวดล้อมการใช้งานทุกแบบให้แก่ผู้ใช้ ซึ่งมาพร้อมด้วย

  • Intelligent LLM compression tools เพื่อลดขนาดของโครงสร้างพื้นฐาน และปรับแต่งโมเดล AI อย่างละเอียด ลดการใช้การประมวลผลให้เหลือน้อยที่สุด ในขณะที่ยังคงรักษาและเพิ่มความแม่นยำของโมเดลได้
  • พื้นที่เก็บข้อมูลโมเดลที่ปรับให้เหมาะสม ซึ่งโฮสต์อยู่ใน Red Hat AI organization บน Hugging Face ช่วยให้เข้าถึงคอลเลกชันของโมเดล AI ชั้นนำที่ได้รับการตรวจสอบและปรับให้เหมาะสม และพร้อมสำหรับใช้ในการอนุมานได้ทันที ซึ่งช่วยเร่งประสิทธิภาพความเร็วได้ 2-4 เท่า โดยไม่กระทบต่อความแม่นยำของโมเดล
  • การสนับสนุนระดับองค์กรของเร้ดแฮท และความเชี่ยวชาญที่สั่งสมหลายทศวรรษในการนำโปรเจกต์ต่างๆ จากคอมมิวนิตี้มาสู่การผลิตใช้งานจริง
  • การสนับสนุนจากบุคคลภายนอก (third-party) เพื่อให้เกิดความยืดหยุ่นในการใช้ Red Hat AI Inference Server ได้บน non-Red Hat Linux และ แพลตฟอร์ม Kubernetes ต่างๆ ซึ่งเป็นไปตามนโยบายสนับสนุน third-party ของเร้ดแฮท

โมเดลใดก็ได้, accelerator ใดก็ได้, คลาวด์ใดก็ได้ 

อนาคตของ AI ต้องถูกกำหนดโดยโอกาสที่ไร้ขีดจำกัด และไม่ถูกจำกัดด้วยโครงสร้างพื้นฐานที่เป็นไซโล เร้ดแฮทมองเห็นแนวทางที่องค์กรต่างๆ จะสามารถใช้โมเดลใดก็ได้ กับ accelerator ใดก็ได้ บนคลาวด์ใดๆ ก็ได้ และมอบประสบการณ์ที่ยอดเยี่ยมและสม่ำเสมอให้กับผู้ใช้งานด้วยค่าใช้จ่ายที่เหมาะสม 

องค์กรต่างต้องการแพลตฟอร์มการอนุมานที่เป็นสากล เป็นมาตรฐานให้กับนวัตกรรม AI ประสิทธิภาพสูงได้อย่างไม่ติดขัด ทั้งในวันนี้และอีกหลายๆ ปีที่จะตามมา เพื่อปลดล็อกศักยภาพที่แท้จริงจากการลงทุนด้าน Gen AI