האתגרים ההנדסיים בתכנון מתקני מחשב בעידן ה AI
עד לאחרונה תהליך הגדרת הצרכים של מתקן מחשב היו ברורים למדי. בעשרים השנים האחרונות המאפיינים של מתקני המחשב לא השתנו בצורה משמעותית והתצורה של מתקני המחשב הייתה ברורה הן ללקוחות והן למתכננים.
הכניסה של עולם ה AI משנה את כללי המשחק בצורה דרמטית. מוסכמות שהיו אבני יסוד לתכנון משתנות. צפיפות ההספק, שיטות הקירור והתנהגות המערכות משנים את "כללי המשחק" ומתקני המחשב הולכים ומשתנים לבלי היכר. הגבול בין ציוד ה IT לבין תשתיות המתקן אינו ברור והוא יציב בפני כל השותפים אתגרים חדשים.
בתאריך 20.1.2025 השיקה התאגדות המהנדסים SEEEI פורום חדש – פורום מתקני מחשב.
במסגרת השקת הפורום הצגתי את האתגרים העומדים בפנינו בתחום תכנון מתקני מחשב בעידן ה AI.
תכנון מתקני מחשב משנות ה 90 של המאה ה 20 ועד היום התבסס על הנחות יסוד דומות, שכללו בין היתר:
- צריכת החשמל הייתה יציבה וקבועה וכל שרת היה מוזן משני מקורות.
- מערכת הקירור של המחשבים הייתה מבוססת על אוויר שקירר את חלל האולם.
- ההספק של מסד ממוצע באולם מחשב נע בין 6KW ל 15KW למסד בהתאם למאפייני הלקוח והאפליקציה.
- הגבול בין המחשב לבין התשתיות היה במסד עצמו שניצב באולם מחשב מקורר אוויר ושאליו סופקו חיבורי החשמל.
- תכנון מתקני המחשב התבסס על תקינה ברורה שהגדירה הן את היתירות והזמינות (כדוגמת תקני UPTIME INSTITUTE) והן את הפרמטרים ההנדסיים כדוגמת תקני ASHRAE.
- ב"עולם הישן" היו מספר חריגים שבאו לידי ביטוי במחשבים מרכזיים ומחשוב על (HPC) מכונות אלה היו חריגות ב"נוף" של אולמות המחשב והתקנתן חייבה תכנון תשתיות פרטני.
עידן ה AI
עידן ה AI מביא איתו מחשבים חדשים בעלי מאפיינים חרגים בתחום צריכת האנרגיה. השינוי נובע מגידול חד בצריכת ההספק של המעבדים עצמם ומהגדלת כמות המעבדים. ממסדים בהספק ממוצע של KW6-15 למסד ההספק עולה ל KW130-150 למסד. שינוי זה אינו מאפשר יותר קירור באמצעות אוויר ומחייב שינוי מהותי בשיטת הקירור. קירור מסדים בצפיפות הספק כזו מחייבת קירור ישיר של השרת, בין אם באמצעות קירור של המעבד ובין אם באמצעות קירור בטבילה.
שינוי זה מחייב תכנון תשתיות שונה ויחד אתו מעלה מספר סוגיות תפעוליות שלא היו קיימות בעידן של קירור האוויר. סוגיה מהותית היא מהו הגבול בין ה IT לבין תשתית המתקן. בעידן של קירור האוויר היתירות הושגה באמצעות הצבה של יחידות קירור אוויר נוספות שסיפקו יתירות וגיבוי למקרה של כשל בקירור. במצב של קירור ישיר נוצרות נקודות כשל משותפות אשר יגרמו לכשל של מערכת ה IT במצבי קיצון כגון תקלה בצנרת. פתרונות של מערכות חסינות לתקלה שהיו אפשריות בקירור אוויר אינן ישימות כיום בשל צפיפות ההספק וקצב עליית הטמפרטורה.
בנוסף, קירור ישיר מאפשר לעבוד בטמפרטורת אספק מים גבוהה יותר מהמקובל כיום וככל הנראה מתקנים עתידיים יהיו עם שתי מערכות קירור מים, אחת לצורך קירור באוויר ושניה לצורך הקירור הישיר.
גם בתחום הזנת החשמל עולם ה AI מביא איתו אתגרים חדשים.
מסדי AI (בחלק מהחברות) פועלים בשיטה של 2 מתוך 3 מקורות. התצורה של שני מקורות הזנה המגבים זה את זה אינה עונה על הצורך ומחייבת תכנון מתקנים בעלי תצורה (טופולוגיה) שונה. העירוב בין ציוד AI לציוד "רגיל" עלולה לשנות את המאזן האנרגטי בין הרגליים ולחייב הקמת מתקנים בעלי תצורה ייחודית.
זאת ועוד, אם בעבר פרופיל צריכה של מתקן מחשב היה קבוע ויציב כיום פרופיל הצריכה משתנה והופך להיות "קופצני" תוך עליה וירידה מהירה של צריכת הזרם. תופעה זו עלולה להשפיע על ההרמוניות, על מערכות האל פסק ועל היכולת של הגנרטורים לגבות את הציוד בכלל ובמעבר אל פסק למצב BYPASS בפרט.
ה SLA שהתגבש עם השנים בין הספקים ללקוחות יצטרך לעבור שינוי. גבולות האחריות בין התשתית ל IT ישתנו ויוגדרו מחדש.
כהערכות לדור ה AI יצרני המערכות האלקטרומכניות מפתחים מערכות שמתוכננות לתת מענה למאפיינים הייחודיים של הציוד, כדוגמת מערכות אל פסק שמתוכננות להתמודד עם הקפיצות בצריה וכדוגמת צ'ילרים המיועדים לספק מים בטמפרטורה גבוהה יותר. מערכות אלה נמצאות בשלבים שונים של פיתוח ואספקה.
יחד עם זאת, במקביל חשוב לזכור כי לא כל מערכות המחשבים יעברו ל AI ועדיין יהיו צרכנים רבים שימשיכו לצרוך תשתיות במאפיינים דומים לאלה שהיו בעבר.
התקופה הקרובה תהיה מאתגרת ללקוחות, לספקים ולמתכננים: גידול מהיר, מאפיינים חדשים, תקינה עדכנית ותשתיות שונות. בתחום ההנדסי יידרש לחשוב "מחוץ לקופסה" ולבחון מחדש תובנות שהיו אבני יסוד בתכנון הישן. רק חשיבה יצירתית תוכל להבטיח ללקוחותינו כי התשתיות העתידיות יתנו מענה הולם לצרכים הטכנולוגיים המשתנים.

