هیچ محصولی در سبد خرید نیست
رفع خطای PCI Slot Power در سرور HPE | عیبیابی PCIe و iLO
7 دقیقه مطالعه
آخرین بروزرسانی: 19 خرداد 1405
رفع خطای PCI Slot Power در سرورهای HPE | عیبیابی اسلات PCIe، پاور، Riser و iLO
خطای PCI Slot Power Error یا خطاهای مشابه مربوط به PCIe Slot Power / PCI Riser / PCIe Training Failure در سرورهای HPE معمولاً زمانی دیده میشود که سرور نتواند کارت نصبشده روی اسلات PCIe را بهدرستی راهاندازی کند، توان کافی به اسلات نرسد، کارت با سرور سازگار نباشد، Riser Cage درست نصب نشده باشد یا Firmware/BIOS سرور نیاز به بهروزرسانی داشته باشد.
این خطا را نباید ساده گرفت. اگر کارت نصبشده یک کارت شبکه 10GbE، HBA Card، RAID Controller، کارت GPU، کارت NVMe یا کارت توسعه مهم باشد، اختلال در اسلات PCIe میتواند باعث شناسایی نشدن کارت، قطع ارتباط Storage، افت Performance، خطای Boot یا حتی خاموش شدن محافظتی سرور شود.
در فرابرد تک، هنگام بررسی خطاهای سختافزاری سرورهای HPE، همیشه باید چند بخش همزمان بررسی شود: Integrated Management Log در iLO، وضعیت پاور، سلامت Riser، سازگاری کارت، Firmware/BIOS، جایگیری فیزیکی کارت و ظرفیت واقعی پاور سرور. اگر در حال نگهداری یا ارتقای سرور هستید، صفحه خرید سرور HPE و مقاله راهکارهای جلوگیری از خرابی و افزایش طول عمر سرور HPE هم میتواند برای تصمیمگیری بهتر مفید باشد.
حکم فنی: خطای PCI Slot Power را با تعویض کورکورانه کارت یا پاور شروع نکنید. اول لاگ iLO/IML را بخوانید، کارت را روی اسلات دیگر تست کنید، Riser را بررسی کنید، Firmware را بهروز کنید و بعد سراغ تعویض قطعه بروید. تعویض عجولانه قطعه یعنی هزینه اضافی بدون تشخیص درست.
خطای PCI Slot Power در سرور HPE دقیقاً یعنی چه؟
اسلاتهای PCIe در سرورهای HPE برای نصب کارتهای توسعه استفاده میشوند؛ مثل کارت شبکه، کارت HBA، کارت RAID، کارت گرافیک، کارت NVMe Adapter و کارتهای ارتباطی دیگر. وقتی سرور نتواند توان موردنیاز کارت را تأمین کند، کارت را بهدرستی Train نکند، Riser درست در جای خود نباشد یا کارت با سرور سازگار نباشد، ممکن است خطاهایی مانند PCI Slot Power Error، Power Fault Detected in PCI Slot، PCIe Slot Training Failure یا خطاهای مشابه در iLO، IML یا هنگام POST دیده شود.
در نسلهای مختلف HPE مثل Gen8، Gen9، Gen10 و Gen11، متن دقیق خطا ممکن است فرق کند، اما منطق عیبیابی تقریباً یکی است: باید بفهمید مشکل از کارت است، از اسلات است، از Riser است، از پاور است یا از Firmware/Compatibility.
علائم رایج خطای PCIe Slot Power در سرورهای HPE
- نمایش خطای PCI Slot Power یا PCIe Error هنگام روشن شدن سرور
- ثبت خطا در Integrated Management Log داخل iLO
- شناسایی نشدن کارت PCIe در BIOS، iLO یا سیستمعامل
- Amber شدن LED مربوط به Riser، پاور یا وضعیت سلامت سرور
- خاموش شدن ناگهانی سرور بعد از نصب کارت جدید
- کار نکردن اسلات خاص، در حالی که همان کارت در اسلات دیگر کار میکند
- خطای PCIe Training Failure یا شناسایی ناقص کارت در POST
- کاهش سرعت لینک PCIe یا کار نکردن کارت با سرعت مورد انتظار
دلایل اصلی بروز PCI Slot Power Error
این خطا معمولاً یک علت واحد ندارد. در عمل، چند عامل میتوانند همزمان باعث بروز خطا شوند. در جدول زیر مهمترین دلایل را میبینید:
| علت احتمالی | توضیح فنی | راه بررسی |
|---|---|---|
| کمبود توان پاور | کارت نصبشده توان بیشتری از ظرفیت قابل ارائه سرور یا پاور میخواهد. | بررسی Power Supply، iLO Health، HPE Power Advisor و مصرف کارت |
| خرابی یا نصب اشتباه Riser | Riser Cage درست نصب نشده یا خود Riser آسیب دیده است. | بررسی فیزیکی Riser، LEDها و تست با Riser دیگر |
| ناسازگاری کارت PCIe | کارت با مدل سرور، نسل PCIe، Firmware یا توان اسلات سازگار نیست. | بررسی QuickSpecs، Compatibility و تست کارت روی سرور دیگر |
| Firmware قدیمی | BIOS/System ROM، iLO یا Firmware قطعات قدیمی است و با کارت جدید درست کار نمیکند. | بهروزرسانی از طریق SPP مناسب نسل سرور |
| خرابی کارت PCIe | خود کارت معیوب است یا هنگام نصب آسیب دیده است. | تست کارت روی اسلات یا سرور دیگر |
| گردوغبار یا اتصال ناقص | اتصال کامل بین کارت و اسلات برقرار نیست. | خاموش کردن سرور، خارج کردن کارت، تمیزکاری اصولی و نصب مجدد |
مراحل عیبیابی PCI Slot Power Error در سرور HPE
1. لاگ iLO و Integrated Management Log را بررسی کنید
اولین قدم حرفهای، بررسی لاگهاست. وارد iLO شوید و بخش Integrated Management Log / IML را بررسی کنید. متن دقیق خطا، شماره اسلات، زمان رخداد، وضعیت پاور، وضعیت Riser و خطاهای همراه را یادداشت کنید. بدون این اطلاعات، عیبیابی بیشتر شبیه حدس زدن است.
اگر iLO خطایی مثل PCIe Training Failure، Power Fault، Riser Fault یا Power Subsystem Degraded نشان دهد، مسیر تشخیص دقیقتر میشود. اگر بهروزرسانی یا نگهداری Firmware انجام ندادهاید، مقالات SPP Gen9، SPP Gen10 و SPP Gen11 را بر اساس نسل سرور بررسی کنید.
2. سرور را کامل خاموش و کارت را دوباره نصب کنید
سرور را بهصورت اصولی خاموش کنید، کابل برق را جدا کنید، چند دقیقه صبر کنید و سپس کارت PCIe را خارج کنید. اسلات، کانکتور کارت و Riser را از نظر گردوغبار، شکستگی، خمشدگی، اثر سوختگی یا لق بودن بررسی کنید. سپس کارت را دوباره محکم و دقیق نصب کنید.
هشدار مهم: کارت PCIe را وقتی سرور روشن است جابهجا نکنید، مگر اینکه مدل سرور و کارت واقعاً Hot Plug را پشتیبانی کند و دستورالعمل رسمی همان مدل را رعایت کرده باشید. نصب اشتباه کارت میتواند به کارت، Riser یا System Board آسیب بزند.
3. کارت را روی اسلات دیگر تست کنید
اگر سرور چند اسلات PCIe دارد، کارت را روی اسلات دیگر تست کنید. اگر کارت در اسلات دیگر کار کرد، احتمال مشکل از اسلات، Riser یا مسیر تغذیه همان اسلات است. اگر کارت در هیچ اسلاتی شناسایی نشد، احتمال خرابی کارت، ناسازگاری یا نیاز به Firmware بالاتر بیشتر میشود.
این تست ساده، یکی از سریعترین راهها برای جدا کردن مشکل کارت از مشکل اسلات است. البته باید محدودیتهای هر اسلات را هم بدانید؛ همه اسلاتها از نظر پهنای باند، توان، نسل PCIe و پشتیبانی کارتهای خاص یکسان نیستند.
4. Riser Cage و LEDهای داخلی را بررسی کنید
در بسیاری از سرورهای HPE، کارتهای PCIe از طریق PCIe Riser به مادربرد متصل میشوند. اگر Riser درست جا نخورده باشد، آسیب دیده باشد یا با مدل سرور سازگار نباشد، کارت ممکن است برق یا لینک PCIe مناسب دریافت نکند.
در برخی مدلها، LED مربوط به PCI Riser یا پاور میتواند سرنخ بدهد. برای مثال، Amber شدن بعضی LEDها میتواند نشانه نصب اشتباه Riser Cage، مشکل پاور یا خطای زیرسیستم باشد. معنی دقیق LEDها را باید از User Guide همان مدل سرور بررسی کنید.
5. پاور سرور و ظرفیت برق کارت را محاسبه کنید
اگر کارت نصبشده توان بالایی مصرف میکند، مثل GPU، کارت شبکه پرسرعت، کارت NVMe یا بعضی HBAها، باید مطمئن شوید پاور سرور و Riser توان لازم را تأمین میکنند. وجود دو پاور هم همیشه به معنی ظرفیت کافی نیست؛ باید توان واقعی، Redundancy Mode، سلامت پاورها و مصرف کل سرور بررسی شود.
برای سرورهای HPE، استفاده از ابزارهای محاسبه توان مثل HPE Power Advisor یا بررسی QuickSpecs مدل سرور و کارت بسیار مهم است. اگر پاور ضعیف باشد یا یکی از پاورها خطا داشته باشد، خطاهای مربوط به PCIe Power میتواند منطقی باشد.
6. BIOS، iLO و Firmware را با SPP بهروز کنید
در بسیاری از خطاهای سختافزاری HPE، Firmware قدیمی میتواند باعث ناسازگاری، شناسایی ناقص کارت یا خطاهای PCIe شود. بهتر است System ROM، iLO، Firmware کنترلرها، کارت شبکه، Smart Array و قطعات مرتبط را با Service Pack for ProLiant مناسب همان نسل بهروزرسانی کنید.
برای سرورهای نسل مختلف، از SPP درست استفاده کنید. استفاده از پکیج اشتباه یا قطع شدن فرآیند آپدیت میتواند دردسر جدی ایجاد کند. برای شروع، این منابع داخلی فرابرد تک را ببینید: دانلود آخرین درایورهای HPE Gen10، SPP G10 و SPP G11.
7. سازگاری کارت PCIe با سرور را بررسی کنید
همه کارتهای PCIe روی همه سرورهای HPE بدون دردسر کار نمیکنند. باید بررسی کنید کارت از نظر نسل PCIe، توان مصرفی، نوع Riser، ابعاد فیزیکی، نیاز به کابل برق کمکی، Firmware و سیستمعامل با سرور سازگار باشد.
برای مثال، نصب GPU یا کارتهای NVMe روی بعضی مدلها نیازمند Riser خاص، کابل برق خاص، Firmware جدید یا تنظیمات BIOS است. در کارتهای HBA و RAID هم باید به سازگاری با Backplane، Storage Controller و سیستمعامل توجه شود.
جدول سریع تشخیص مشکل PCI Slot Power
| وضعیت مشاهدهشده | احتمال بیشتر | اقدام پیشنهادی |
|---|---|---|
| کارت در هیچ اسلاتی شناسایی نمیشود | خرابی کارت، ناسازگاری یا Firmware قدیمی | تست کارت روی سرور دیگر، بررسی Compatibility، آپدیت SPP |
| کارت فقط در یک اسلات خاص کار نمیکند | مشکل اسلات، Riser یا مسیر تغذیه همان اسلات | بررسی Riser، LEDها، تست Riser جایگزین |
| بعد از نصب کارت جدید، سرور خطای پاور میدهد | مصرف بالای کارت یا پاور ناکافی | محاسبه توان، بررسی PSU، بررسی نیاز کابل برق کمکی |
| خطا بعد از آپدیت یا تغییر سختافزار ایجاد شده | ناسازگاری Firmware یا تنظیمات BIOS | بررسی نسخه Firmware، تنظیمات BIOS، Reset تنظیمات در صورت نیاز |
| iLO خطای Power Subsystem یا PSU نشان میدهد | مشکل پاور، برق ورودی یا Redundancy | بررسی پاورها، کابل برق، PDU و سلامت Power Supply |
اشتباهات رایج در رفع خطای PCI Slot Power
- تعویض سریع پاور بدون بررسی لاگ: همیشه مشکل از PSU نیست.
- نادیده گرفتن Riser: خیلی وقتها مشکل از Riser Cage یا نصب اشتباه آن است.
- استفاده از کارت ناسازگار: هر کارت PCIe که از نظر فیزیکی جا میشود، الزاماً با سرور سازگار نیست.
- آپدیت نکردن Firmware: Firmware قدیمی میتواند کارتهای جدید را درست شناسایی نکند.
- بیتوجهی به توان کارت: کارتهای پرمصرف ممکن است نیاز به پاور یا کابل خاص داشته باشند.
- تست نکردن کارت در اسلات دیگر: بدون تست متقاطع، تشخیص مشکل ناقص است.
چه زمانی باید قطعه تعویض شود؟
تعویض قطعه زمانی منطقی است که با تست مرحلهای، قطعه مشکوک مشخص شده باشد. اگر کارت در چند سرور خطا میدهد، احتمال خرابی کارت بالاست. اگر چند کارت سالم در یک اسلات خاص کار نمیکنند، احتمال مشکل از Riser یا اسلات بیشتر است. اگر iLO خطای پاور یا Power Subsystem میدهد، باید پاور، کابل برق، PDU و Backplane برق بررسی شود.
در سرورهای عملیاتی، مخصوصاً وقتی سرور میزبان VMware، فایلسرور، دیتابیس یا بکاپ سازمانی است، قبل از هر تغییر سختافزاری از وضعیت بکاپ مطمئن شوید. اگر بهروزرسانی Firmware یا تغییر Storage دارید، مقاله راهنمای نصب ESXi روی سرورهای HP و راهنمای RAID بندی سرور HPE هم میتواند کمک کند تصمیم اشتباه نگیرید.
پیشگیری از خطاهای PCIe در سرورهای HPE
- قبل از خرید کارت PCIe، سازگاری آن را با مدل دقیق سرور بررسی کنید.
- قبل از نصب کارتهای پرمصرف، توان پاور و نیاز برق کمکی را محاسبه کنید.
- SPP، BIOS، iLO و Firmware قطعات را بهصورت کنترلشده بهروز نگه دارید.
- داخل سرور را تمیز، خشک و بدون گردوغبار نگه دارید.
- از Riser و قطعات اصلی یا سازگار با مدل سرور استفاده کنید.
- بعد از هر تغییر سختافزاری، iLO Health و IML را بررسی کنید.
- برای سرورهای حساس، قطعات Spare مثل پاور، Riser و کارتهای کلیدی را آماده داشته باشید.
سوالات متداول درباره PCI Slot Power Error
آیا خطای PCI Slot Power یعنی اسلات PCIe سوخته است؟
نه الزاماً. این خطا میتواند به پاور، Riser، کارت PCIe، Firmware، سازگاری کارت یا نصب اشتباه مربوط باشد. قبل از نتیجهگیری باید تست مرحلهای انجام شود.
آیا آپدیت BIOS و Firmware میتواند مشکل را حل کند؟
بله، در برخی موارد Firmware قدیمی باعث شناسایی ناقص کارت یا خطای PCIe میشود. بهتر است System ROM، iLO و Firmware قطعات با SPP مناسب نسل سرور بهروز شوند.
اگر کارت روی یک اسلات کار نمیکند ولی روی اسلات دیگر کار میکند، مشکل چیست؟
احتمال مشکل از اسلات، Riser، محدودیت همان اسلات یا مسیر تغذیه آن بیشتر است. در این حالت باید Riser و وضعیت LEDها بررسی شود.
آیا هر کارت PCIe روی سرور HPE قابل نصب است؟
خیر. باید سازگاری کارت با مدل سرور، نسل PCIe، توان مصرفی، Riser، Firmware و سیستمعامل بررسی شود. نصب فیزیکی کارت به معنی سازگاری کامل نیست.
در صورت تکرار خطا چه کاری باید انجام شود؟
لاگ iLO/IML را ذخیره کنید، کارت را در اسلات دیگر تست کنید، Firmware را بررسی کنید، پاور و Riser را تست کنید و اگر سرور گارانتی یا قرارداد پشتیبانی دارد، با اطلاعات لاگ کامل اقدام کنید.
جمعبندی
خطای PCI Slot Power در سرورهای HPE را نباید با حدس و تعویض شانسی قطعه رفع کرد. این خطا میتواند از پاور، کارت PCIe، Riser، Firmware، اسلات، ناسازگاری سختافزاری یا نصب اشتباه کارت باشد. مسیر درست، بررسی لاگ iLO، تست کارت روی اسلات دیگر، بررسی Riser، محاسبه توان، بهروزرسانی Firmware و بعد تصمیم برای تعویض قطعه است.
اگر سرور شما میزبان سرویسهای حساس است یا قصد نصب کارت HBA، کارت شبکه 10GbE، کارت RAID، GPU یا NVMe Adapter دارید، قبل از خرید و نصب کارت با فرابرد تک مشورت کنید. انتخاب کارت ناسازگار یا پاور ناکافی، بعداً هزینه و قطعی سرویس ایجاد میکند.



دیدگاه ها برای این نوشته بسته می باشد