arash رفع خطای PCI Slot Power در سرور HPE | عیب‌یابی PCIe و iLO

arash بدون دیدگاه
راهنمای کامل رفع خطا و جلوگیری از مشکلات احتمالی

7 دقیقه مطالعه

آخرین بروزرسانی: 19 خرداد 1405

رفع خطای PCI Slot Power در سرورهای HPE | عیب‌یابی اسلات PCIe، پاور، Riser و iLO

خطای PCI Slot Power Error یا خطاهای مشابه مربوط به PCIe Slot Power / PCI Riser / PCIe Training Failure در سرورهای HPE معمولاً زمانی دیده می‌شود که سرور نتواند کارت نصب‌شده روی اسلات PCIe را به‌درستی راه‌اندازی کند، توان کافی به اسلات نرسد، کارت با سرور سازگار نباشد، Riser Cage درست نصب نشده باشد یا Firmware/BIOS سرور نیاز به به‌روزرسانی داشته باشد.

این خطا را نباید ساده گرفت. اگر کارت نصب‌شده یک کارت شبکه 10GbE، HBA Card، RAID Controller، کارت GPU، کارت NVMe یا کارت توسعه مهم باشد، اختلال در اسلات PCIe می‌تواند باعث شناسایی نشدن کارت، قطع ارتباط Storage، افت Performance، خطای Boot یا حتی خاموش شدن محافظتی سرور شود.

در فرابرد تک، هنگام بررسی خطاهای سخت‌افزاری سرورهای HPE، همیشه باید چند بخش هم‌زمان بررسی شود: Integrated Management Log در iLO، وضعیت پاور، سلامت Riser، سازگاری کارت، Firmware/BIOS، جای‌گیری فیزیکی کارت و ظرفیت واقعی پاور سرور. اگر در حال نگهداری یا ارتقای سرور هستید، صفحه خرید سرور HPE و مقاله راهکارهای جلوگیری از خرابی و افزایش طول عمر سرور HPE هم می‌تواند برای تصمیم‌گیری بهتر مفید باشد.

حکم فنی: خطای PCI Slot Power را با تعویض کورکورانه کارت یا پاور شروع نکنید. اول لاگ iLO/IML را بخوانید، کارت را روی اسلات دیگر تست کنید، Riser را بررسی کنید، Firmware را به‌روز کنید و بعد سراغ تعویض قطعه بروید. تعویض عجولانه قطعه یعنی هزینه اضافی بدون تشخیص درست.

خطای PCI Slot Power در سرور HPE دقیقاً یعنی چه؟

اسلات‌های PCIe در سرورهای HPE برای نصب کارت‌های توسعه استفاده می‌شوند؛ مثل کارت شبکه، کارت HBA، کارت RAID، کارت گرافیک، کارت NVMe Adapter و کارت‌های ارتباطی دیگر. وقتی سرور نتواند توان موردنیاز کارت را تأمین کند، کارت را به‌درستی Train نکند، Riser درست در جای خود نباشد یا کارت با سرور سازگار نباشد، ممکن است خطاهایی مانند PCI Slot Power Error، Power Fault Detected in PCI Slot، PCIe Slot Training Failure یا خطاهای مشابه در iLO، IML یا هنگام POST دیده شود.

در نسل‌های مختلف HPE مثل Gen8، Gen9، Gen10 و Gen11، متن دقیق خطا ممکن است فرق کند، اما منطق عیب‌یابی تقریباً یکی است: باید بفهمید مشکل از کارت است، از اسلات است، از Riser است، از پاور است یا از Firmware/Compatibility.

علائم رایج خطای PCIe Slot Power در سرورهای HPE

  • نمایش خطای PCI Slot Power یا PCIe Error هنگام روشن شدن سرور
  • ثبت خطا در Integrated Management Log داخل iLO
  • شناسایی نشدن کارت PCIe در BIOS، iLO یا سیستم‌عامل
  • Amber شدن LED مربوط به Riser، پاور یا وضعیت سلامت سرور
  • خاموش شدن ناگهانی سرور بعد از نصب کارت جدید
  • کار نکردن اسلات خاص، در حالی که همان کارت در اسلات دیگر کار می‌کند
  • خطای PCIe Training Failure یا شناسایی ناقص کارت در POST
  • کاهش سرعت لینک PCIe یا کار نکردن کارت با سرعت مورد انتظار

دلایل اصلی بروز PCI Slot Power Error

این خطا معمولاً یک علت واحد ندارد. در عمل، چند عامل می‌توانند هم‌زمان باعث بروز خطا شوند. در جدول زیر مهم‌ترین دلایل را می‌بینید:

علت احتمالی توضیح فنی راه بررسی
کمبود توان پاور کارت نصب‌شده توان بیشتری از ظرفیت قابل ارائه سرور یا پاور می‌خواهد. بررسی Power Supply، iLO Health، HPE Power Advisor و مصرف کارت
خرابی یا نصب اشتباه Riser Riser Cage درست نصب نشده یا خود Riser آسیب دیده است. بررسی فیزیکی Riser، LEDها و تست با Riser دیگر
ناسازگاری کارت PCIe کارت با مدل سرور، نسل PCIe، Firmware یا توان اسلات سازگار نیست. بررسی QuickSpecs، Compatibility و تست کارت روی سرور دیگر
Firmware قدیمی BIOS/System ROM، iLO یا Firmware قطعات قدیمی است و با کارت جدید درست کار نمی‌کند. به‌روزرسانی از طریق SPP مناسب نسل سرور
خرابی کارت PCIe خود کارت معیوب است یا هنگام نصب آسیب دیده است. تست کارت روی اسلات یا سرور دیگر
گردوغبار یا اتصال ناقص اتصال کامل بین کارت و اسلات برقرار نیست. خاموش کردن سرور، خارج کردن کارت، تمیزکاری اصولی و نصب مجدد

مراحل عیب‌یابی PCI Slot Power Error در سرور HPE

1. لاگ iLO و Integrated Management Log را بررسی کنید

اولین قدم حرفه‌ای، بررسی لاگ‌هاست. وارد iLO شوید و بخش Integrated Management Log / IML را بررسی کنید. متن دقیق خطا، شماره اسلات، زمان رخداد، وضعیت پاور، وضعیت Riser و خطاهای همراه را یادداشت کنید. بدون این اطلاعات، عیب‌یابی بیشتر شبیه حدس زدن است.

اگر iLO خطایی مثل PCIe Training Failure، Power Fault، Riser Fault یا Power Subsystem Degraded نشان دهد، مسیر تشخیص دقیق‌تر می‌شود. اگر به‌روزرسانی یا نگهداری Firmware انجام نداده‌اید، مقالات SPP Gen9، SPP Gen10 و SPP Gen11 را بر اساس نسل سرور بررسی کنید.

2. سرور را کامل خاموش و کارت را دوباره نصب کنید

سرور را به‌صورت اصولی خاموش کنید، کابل برق را جدا کنید، چند دقیقه صبر کنید و سپس کارت PCIe را خارج کنید. اسلات، کانکتور کارت و Riser را از نظر گردوغبار، شکستگی، خم‌شدگی، اثر سوختگی یا لق بودن بررسی کنید. سپس کارت را دوباره محکم و دقیق نصب کنید.

هشدار مهم: کارت PCIe را وقتی سرور روشن است جابه‌جا نکنید، مگر اینکه مدل سرور و کارت واقعاً Hot Plug را پشتیبانی کند و دستورالعمل رسمی همان مدل را رعایت کرده باشید. نصب اشتباه کارت می‌تواند به کارت، Riser یا System Board آسیب بزند.

3. کارت را روی اسلات دیگر تست کنید

اگر سرور چند اسلات PCIe دارد، کارت را روی اسلات دیگر تست کنید. اگر کارت در اسلات دیگر کار کرد، احتمال مشکل از اسلات، Riser یا مسیر تغذیه همان اسلات است. اگر کارت در هیچ اسلاتی شناسایی نشد، احتمال خرابی کارت، ناسازگاری یا نیاز به Firmware بالاتر بیشتر می‌شود.

این تست ساده، یکی از سریع‌ترین راه‌ها برای جدا کردن مشکل کارت از مشکل اسلات است. البته باید محدودیت‌های هر اسلات را هم بدانید؛ همه اسلات‌ها از نظر پهنای باند، توان، نسل PCIe و پشتیبانی کارت‌های خاص یکسان نیستند.

4. Riser Cage و LEDهای داخلی را بررسی کنید

در بسیاری از سرورهای HPE، کارت‌های PCIe از طریق PCIe Riser به مادربرد متصل می‌شوند. اگر Riser درست جا نخورده باشد، آسیب دیده باشد یا با مدل سرور سازگار نباشد، کارت ممکن است برق یا لینک PCIe مناسب دریافت نکند.

در برخی مدل‌ها، LED مربوط به PCI Riser یا پاور می‌تواند سرنخ بدهد. برای مثال، Amber شدن بعضی LEDها می‌تواند نشانه نصب اشتباه Riser Cage، مشکل پاور یا خطای زیرسیستم باشد. معنی دقیق LEDها را باید از User Guide همان مدل سرور بررسی کنید.

5. پاور سرور و ظرفیت برق کارت را محاسبه کنید

اگر کارت نصب‌شده توان بالایی مصرف می‌کند، مثل GPU، کارت شبکه پرسرعت، کارت NVMe یا بعضی HBAها، باید مطمئن شوید پاور سرور و Riser توان لازم را تأمین می‌کنند. وجود دو پاور هم همیشه به معنی ظرفیت کافی نیست؛ باید توان واقعی، Redundancy Mode، سلامت پاورها و مصرف کل سرور بررسی شود.

برای سرورهای HPE، استفاده از ابزارهای محاسبه توان مثل HPE Power Advisor یا بررسی QuickSpecs مدل سرور و کارت بسیار مهم است. اگر پاور ضعیف باشد یا یکی از پاورها خطا داشته باشد، خطاهای مربوط به PCIe Power می‌تواند منطقی باشد.

6. BIOS، iLO و Firmware را با SPP به‌روز کنید

در بسیاری از خطاهای سخت‌افزاری HPE، Firmware قدیمی می‌تواند باعث ناسازگاری، شناسایی ناقص کارت یا خطاهای PCIe شود. بهتر است System ROM، iLO، Firmware کنترلرها، کارت شبکه، Smart Array و قطعات مرتبط را با Service Pack for ProLiant مناسب همان نسل به‌روزرسانی کنید.

برای سرورهای نسل مختلف، از SPP درست استفاده کنید. استفاده از پکیج اشتباه یا قطع شدن فرآیند آپدیت می‌تواند دردسر جدی ایجاد کند. برای شروع، این منابع داخلی فرابرد تک را ببینید: دانلود آخرین درایورهای HPE Gen10، SPP G10 و SPP G11.

7. سازگاری کارت PCIe با سرور را بررسی کنید

همه کارت‌های PCIe روی همه سرورهای HPE بدون دردسر کار نمی‌کنند. باید بررسی کنید کارت از نظر نسل PCIe، توان مصرفی، نوع Riser، ابعاد فیزیکی، نیاز به کابل برق کمکی، Firmware و سیستم‌عامل با سرور سازگار باشد.

برای مثال، نصب GPU یا کارت‌های NVMe روی بعضی مدل‌ها نیازمند Riser خاص، کابل برق خاص، Firmware جدید یا تنظیمات BIOS است. در کارت‌های HBA و RAID هم باید به سازگاری با Backplane، Storage Controller و سیستم‌عامل توجه شود.

جدول سریع تشخیص مشکل PCI Slot Power

وضعیت مشاهده‌شده احتمال بیشتر اقدام پیشنهادی
کارت در هیچ اسلاتی شناسایی نمی‌شود خرابی کارت، ناسازگاری یا Firmware قدیمی تست کارت روی سرور دیگر، بررسی Compatibility، آپدیت SPP
کارت فقط در یک اسلات خاص کار نمی‌کند مشکل اسلات، Riser یا مسیر تغذیه همان اسلات بررسی Riser، LEDها، تست Riser جایگزین
بعد از نصب کارت جدید، سرور خطای پاور می‌دهد مصرف بالای کارت یا پاور ناکافی محاسبه توان، بررسی PSU، بررسی نیاز کابل برق کمکی
خطا بعد از آپدیت یا تغییر سخت‌افزار ایجاد شده ناسازگاری Firmware یا تنظیمات BIOS بررسی نسخه Firmware، تنظیمات BIOS، Reset تنظیمات در صورت نیاز
iLO خطای Power Subsystem یا PSU نشان می‌دهد مشکل پاور، برق ورودی یا Redundancy بررسی پاورها، کابل برق، PDU و سلامت Power Supply

اشتباهات رایج در رفع خطای PCI Slot Power

  • تعویض سریع پاور بدون بررسی لاگ: همیشه مشکل از PSU نیست.
  • نادیده گرفتن Riser: خیلی وقت‌ها مشکل از Riser Cage یا نصب اشتباه آن است.
  • استفاده از کارت ناسازگار: هر کارت PCIe که از نظر فیزیکی جا می‌شود، الزاماً با سرور سازگار نیست.
  • آپدیت نکردن Firmware: Firmware قدیمی می‌تواند کارت‌های جدید را درست شناسایی نکند.
  • بی‌توجهی به توان کارت: کارت‌های پرمصرف ممکن است نیاز به پاور یا کابل خاص داشته باشند.
  • تست نکردن کارت در اسلات دیگر: بدون تست متقاطع، تشخیص مشکل ناقص است.

چه زمانی باید قطعه تعویض شود؟

تعویض قطعه زمانی منطقی است که با تست مرحله‌ای، قطعه مشکوک مشخص شده باشد. اگر کارت در چند سرور خطا می‌دهد، احتمال خرابی کارت بالاست. اگر چند کارت سالم در یک اسلات خاص کار نمی‌کنند، احتمال مشکل از Riser یا اسلات بیشتر است. اگر iLO خطای پاور یا Power Subsystem می‌دهد، باید پاور، کابل برق، PDU و Backplane برق بررسی شود.

در سرورهای عملیاتی، مخصوصاً وقتی سرور میزبان VMware، فایل‌سرور، دیتابیس یا بکاپ سازمانی است، قبل از هر تغییر سخت‌افزاری از وضعیت بکاپ مطمئن شوید. اگر به‌روزرسانی Firmware یا تغییر Storage دارید، مقاله راهنمای نصب ESXi روی سرورهای HP و راهنمای RAID بندی سرور HPE هم می‌تواند کمک کند تصمیم اشتباه نگیرید.

رفع خطای PCI Slot Power در سرورهای HPE و بررسی اسلات PCIe از طریق iLO و BIOS

پیشگیری از خطاهای PCIe در سرورهای HPE

  • قبل از خرید کارت PCIe، سازگاری آن را با مدل دقیق سرور بررسی کنید.
  • قبل از نصب کارت‌های پرمصرف، توان پاور و نیاز برق کمکی را محاسبه کنید.
  • SPP، BIOS، iLO و Firmware قطعات را به‌صورت کنترل‌شده به‌روز نگه دارید.
  • داخل سرور را تمیز، خشک و بدون گردوغبار نگه دارید.
  • از Riser و قطعات اصلی یا سازگار با مدل سرور استفاده کنید.
  • بعد از هر تغییر سخت‌افزاری، iLO Health و IML را بررسی کنید.
  • برای سرورهای حساس، قطعات Spare مثل پاور، Riser و کارت‌های کلیدی را آماده داشته باشید.

سوالات متداول درباره PCI Slot Power Error

آیا خطای PCI Slot Power یعنی اسلات PCIe سوخته است؟

نه الزاماً. این خطا می‌تواند به پاور، Riser، کارت PCIe، Firmware، سازگاری کارت یا نصب اشتباه مربوط باشد. قبل از نتیجه‌گیری باید تست مرحله‌ای انجام شود.

آیا آپدیت BIOS و Firmware می‌تواند مشکل را حل کند؟

بله، در برخی موارد Firmware قدیمی باعث شناسایی ناقص کارت یا خطای PCIe می‌شود. بهتر است System ROM، iLO و Firmware قطعات با SPP مناسب نسل سرور به‌روز شوند.

اگر کارت روی یک اسلات کار نمی‌کند ولی روی اسلات دیگر کار می‌کند، مشکل چیست؟

احتمال مشکل از اسلات، Riser، محدودیت همان اسلات یا مسیر تغذیه آن بیشتر است. در این حالت باید Riser و وضعیت LEDها بررسی شود.

آیا هر کارت PCIe روی سرور HPE قابل نصب است؟

خیر. باید سازگاری کارت با مدل سرور، نسل PCIe، توان مصرفی، Riser، Firmware و سیستم‌عامل بررسی شود. نصب فیزیکی کارت به معنی سازگاری کامل نیست.

در صورت تکرار خطا چه کاری باید انجام شود؟

لاگ iLO/IML را ذخیره کنید، کارت را در اسلات دیگر تست کنید، Firmware را بررسی کنید، پاور و Riser را تست کنید و اگر سرور گارانتی یا قرارداد پشتیبانی دارد، با اطلاعات لاگ کامل اقدام کنید.

جمع‌بندی

خطای PCI Slot Power در سرورهای HPE را نباید با حدس و تعویض شانسی قطعه رفع کرد. این خطا می‌تواند از پاور، کارت PCIe، Riser، Firmware، اسلات، ناسازگاری سخت‌افزاری یا نصب اشتباه کارت باشد. مسیر درست، بررسی لاگ iLO، تست کارت روی اسلات دیگر، بررسی Riser، محاسبه توان، به‌روزرسانی Firmware و بعد تصمیم برای تعویض قطعه است.

اگر سرور شما میزبان سرویس‌های حساس است یا قصد نصب کارت HBA، کارت شبکه 10GbE، کارت RAID، GPU یا NVMe Adapter دارید، قبل از خرید و نصب کارت با فرابرد تک مشورت کنید. انتخاب کارت ناسازگار یا پاور ناکافی، بعداً هزینه و قطعی سرویس ایجاد می‌کند.

 

برچسب ها
مطالب مرتبط

دیدگاه ها برای این نوشته بسته می باشد