راهنمای خرید سرور GPU؛ هر آنچه باید بدانید

راهنمای خرید سرور GPU؛ هر آنچه باید بدانید

اگر در یادگیری ماشین، رندرینگ سه‌بعدی، بینایی ماشین، تحلیل داده‌های حجیم یا استنتاج بلادرنگ کار می‌کنید، سرور GPU دیگر یک «گزینه لوکس» نیست؛ زیرساخت پایه است. انتخاب درست یعنی تناسب GPU/CPU/RAM/ذخیره‌سازی/شبکه/کولینگ با سناریوی کاری شما، نه صرفاً تعداد کارت بیشتر.

قبل از هر چیز: از کجا شروع کنیم؟

پنج سؤال زیر ۸۰٪ مسیر انتخاب را روشن می‌کند:

  1. بار غالب شما چیست؟ آموزش مدل، استنتاج، رندر، پردازش ویدئو یا ترکیبی؟
  2. ابعاد داده و Batch Size؟ تعیین‌کنندهٔ حافظه GPU و سیستم.
  3. مقیاس‌پذیری مدنظر؟ یک شاسی قدرتمند یا چند گره سبک و خوشه‌ای؟
  4. گلوگاه امروز کجاست؟ CPU، NVMe، شبکه بین‌گرهی یا ارتباط بین‌GPUها؟
  5. TCO واقعی؟ برق، کولینگ، رک، PDU، نگه‌داری و لایسنس را از ابتدا حساب کنید.

برای مرور نمونه‌پیکربندی‌ها و انتخاب بر اساس موجودی واقعی بازار، نقطه شروع منطقی صفحهٔ خرید سرور gpu  در سایت تامین تجهیزات مراکز داده آرمان است.

اجزای کلیدی که باید درست «هماهنگ» شوند

  • GPU: نسل و فرم‌فاکتور (PCIe یا SXM)، ظرفیت حافظه (HBM/GDDR)، نیاز به NVLink/NVSwitch.
  • CPU: هستهٔ کافی و فرکانس مناسب تا GPUها بیکار نمانند.
  • RAM: 256 تا 1024 گیگابایت، بسته به DataLoader و اندازه Batch.
  • ذخیره‌سازی: NVMe پرسرعت با IOPS بالا و PLP برای پایداری نوشتن.
  • شبکه: 25/100GbE یا InfiniBand برای خوشه؛ درون شاسی هم پهنای‌باند بین‌GPU مهم است.
  • کولینگ/پاور: شاسی‌های چند GPU به 2–3kW و مدیریت حرارتی دقیق نیاز دارند.

Lenovo ThinkSystem SR670 V2

نقل قول ۱ (درباره ظرفیت GPU در SR670 V2)

به نقل از وب‌سایت Lenovo Press:

سرور Lenovo ThinkSystem SR670 V2 یک سیستم 3U غنی از GPU است که تا هشت کارت دو-اسلات با کارایی بالا—از جمله NVIDIA A100 و A40—یا پیکربندی NVIDIA HGX A100 با NVLink و خنک‌کاری ترکیبی Lenovo Neptune را پشتیبانی می‌کند.

این گزاره برای تصمیم «چند GPU در یک شاسی» حیاتی است: اگر آموزش مدل‌های بزرگ و جابه‌جایی تانسورها بین GPUها را دارید، SR670 V2 با گزینه NVLink/HGX مختص شماست.

چهار مدل شاخص موجود در صفحه و کاربردهای رایج

بر اساس صفحهٔ مقصد، این مدل‌ها کف انتخاب‌های حرفه‌ای شما را می‌سازند:

  • Lenovo ThinkSystem SR670 V2
    شاسی 3U «GPU-rich» برای آموزش مدل‌های عمیق، HPC و رندرینگ. پشتیبانی از ۸× A100/A40 یا پیکربندی HGX A100 با NVLink. مناسب تیم‌هایی که می‌خواهند «در یک شاسی» به بازده بالا برسند.
  • Supermicro SYS-420GP-TNAR+
    پلتفرم ماژولار AI/HPC با پردازنده‌های Xeon Scalable نسل ۳، 10 اسلات PCIe Gen4 x16 و گزینه‌های NVMe/شبکهٔ منعطف. برای کسانی که سفارشی‌سازی دقیق I/O و توسعه تدریجی می‌خواهند.
  • Dell PowerEdge XE9680
    شاسی GPU پرچم‌دار با ۸ کارت و پشتیبانی از NVLink در مدل‌های جدید؛ مناسب برای کارهای مدل‌های زبانی بزرگ و استنتاج پرتراکم.
  • HPE Apollo 6500 Gen10 Plus
    طراحی فنّی برای DL/ML با گزینه‌های EPYC/Xeon و چیدمان‌های چند GPU؛ انتخاب قابل اتکا برای پروژه‌های بلندمدت در مراکز داده.

نکته: اختلاف این چهار خانواده در مدل کولینگ، چیدمان PCIe/SXM، دسترسی به NVLink و گزینه‌های شبکه/ذخیره‌سازی است. انتخاب نهایی را بر اساس این جزئیات انجام دهید، نه صرفاً نام برند.

جدول تطبیقی سریع

مدل فرم‌فاکتور/تراکم چینش GPU رایج نکتهٔ تمایز مناسب برای
Lenovo SR670 V2 رک‌مونت 3U 4–8× A100/A40 یا HGX A100 گزینه NVLink و Neptune برای کولینگ آموزش DL، HPC، رندرینگ
Supermicro SYS-420GP-TNAR+ رک‌مونت 4U 4× A100/H100 ماژولار، 10× PCIe Gen4 x16 سفارشی‌سازی I/O، توسعه تدریجی
Dell XE9680 رک‌مونت پرچم‌دار 8× GPU نسل جدید NVLink در چیدمان‌های به‌روز LLM بزرگ، استنتاج پرتراکم
HPE Apollo 6500 Gen10+ رک‌مونت خانواده Apollo 4–8× GPU ترکیب EPYC/Xeon، پایداری دیتاسنتری پروژه‌های بلندمدت DL/ML

چینش دقیق به SKU و نسل GPU بستگی دارد؛ برای سایزبندی نهایی، مشخصات نسخهٔ مدنظرتان را تطبیق دهید. به نقل از وب‌سایت NVIDIA (معرفی Hopper/NVLink):

NVLink نسل چهارم، پهنای‌باند چند GPU را به ۹۰۰ گیگابایت بر ثانیه به‌صورت رفت‌وبرگشت برای هر GPU می‌رساند که بیش از ۷ برابر PCIe Gen5 است.

این عدد به‌صورت عملی یعنی: اگر مدل شما نیاز به جابه‌جایی سریع Activationها/گرادیان‌ها بین GPUها دارد، وجود NVLink در همان شاسی، تفاوت محسوسی در زمان آموزش و کارایی مقیاس‌پذیری ایجاد می‌کند.

چگونه پیکربندی «اندازهٔ شما» را انتخاب کنیم؟

۱) آموزش مدل‌های تصویری/زبانی متوسط

  • GPU: 4× A100 40/80GB یا L40/L40S
  • CPU/RAM: دو پردازندهٔ 32–48 هسته‌ای، 512GB RAM
  • ذخیره‌سازی: NVMe Gen4 با حداقل 8TB پرسرعت
  • شبکه: 25/100GbE در خوشه
  • گزینهٔ شاسی: SR670 V2 یا SYS-420GP-TNAR+

۲) آموزش LLM بزرگ یا چندگره

  • GPU: 4–8× H100 80GB (SXM/PCIe)
  • CPU/RAM: دو پردازندهٔ سطح بالا، 768GB–1TB RAM
  • زیرساخت: نیاز به NVLink/NVSwitch داخل شاسی یا شبکهٔ بین‌گرهی 100GbE/InfiniBand
  • گزینهٔ شاسی: SR670 V2 با HGX یا پلتفرم‌های چندگره

۳) رندرینگ/انیمیشن و پردازش ویدئو

  • GPU: 2–4× L40/L4/A10
  • سیستم: 256–512GB RAM، NVMe Scratch
  • شبکه: 10/25GbE
  • گزینهٔ شاسی: SR670 V2 یا SYS-420GP-TNAR+ با تمرکز بر I/O

نکات ظریف اما پراثر

  • SXM در برابر PCIe: SXM معمولاً پهنای‌باند بین‌GPU بالاتری و کولینگ بهینه‌تری می‌دهد؛ PCIe انعطاف‌پذیرتر و اقتصادی‌تر است.
  • NVLink/NVSwitch: در آموزش‌های چند GPU روی گراف‌های بزرگ، عامل تعیین‌کنندهٔ مقیاس‌پذیری است.
  • حافظهٔ GPU: برای LLMها، 80GB HBM مزیت کلیدی است؛ ولی تکنیک‌هایی مثل ZeRO/Offload می‌توانند نیاز را کاهش دهند.
  • کولینگ و پاور: برای ۴–۸ GPU، به 2–3kW و طراحی مسیر هوای دقیق نیاز دارید.
  • RAID و PLP: کشِ کنترلر با محافظت (BBU/CacheVault) و SSDهای سازمانی با PLP ریسک از دست‌رفتگی را کم می‌کند.

پیکربندی سرور GPU

خطاهای رایج و راه‌حل سریع

  • فقط شمردن GPUها: بدون CPU/RAM/NVMe کافی، GPUها بیکار می‌مانند.
  • نادیده‌گرفتن ارتباط بین‌GPU: مدل‌های بزرگ بدون NVLink به‌خوبی مقیاس نمی‌شوند.
  • شبکهٔ ضعیف در چندگره: برای توزیع داده/گرادیان، 25/100GbE یا InfiniBand را خط پایه بگذارید.
  • بی‌برنامگی در برق/کولینگ: توان نامتناسب باعث Throttle و افت پایداری می‌شود.

جمع‌بندی عملی

انتخاب سرور GPU یعنی هم‌تراز کردن GPU، CPU، RAM، NVMe، شبکه و کولینگ با کاری که انجام می‌دهید. اگر می‌خواهید در یک شاسی به حداکثر بازده برسید، Lenovo SR670 V2 با پشتیبانی از ۸ GPU و گزینهٔ NVLink/HGX انتخابی مطمئن است؛ اگر به سفارشی‌سازی سطح I/O و توسعهٔ تدریجی فکر می‌کنید، Supermicro SYS-420GP-TNAR+ مسیر منعطف‌تری ارائه می‌دهد. برای سناریوهای LLM بزرگ یا استنتاج پرتراکم، خانواده‌های XE و Apollo نیز روی میز هستند.

گام بعدی منطقی این است که سراغ موجودی و پیشنهادهای قابل سفارش بروید و بر اساس بودجه و محدودیت‌های رک/برق، پیکربندی «اندازهٔ شما» را ببندید. نقطهٔ شروع سریع، همان صفحهٔ خرید سرور gpu است؛ روی زمین واقعی بازار قدم می‌زنید و بین مدل‌ها، محدودیت‌ها و مزیت‌ها، انتخاب کم‌ریسک‌تری می‌کنید.

ارسال دیدگاه