Witam, drodzy kamraci.
Mam cztery moduły 16GB DDR3-1866 ECC Reg z radiatorami alu takie cienkie blaszki zamykane dwoma klipsami.
Czy to możliwe, że się za bardzo nagrzewają i następuje w/w zjawisko?
Nic innego nie przychodzi mi do głowy z powodów freeza.
Chciałem nabyć termo kamerę, ale przyszedł C19 i się rozeszły, a te dostępne to startują od 300€, termometry laserowe które są w moim zasięgu mierzą tylko zakres temperatury ciała człowieka. Dotknąć się nie da - zbyt gorące. Program SIV (System Information Viewer) pokazuje 65°C, ale nie jestem pewien czy te ramy mają termo diodę. Zostają kredki dla spawaczy ;).
Nie powinno mieć znaczenia. A co mówi dziennik zdarzeń?
:book:
Te ostrzeżenia ciągle mi się pojawiają -"Wystąpił naprawiony błąd sprzętowy.
Składnik: Pamięć Źródło błędu: Corrected Machine Check" -
ale to chyba informacja o działającej korekcji błędów?
Z tego momentu mam cztery:
1. Nie można uruchomić usługi luafv z powodu następującego błędu:
Nastąpiło zablokowanie ładowania sterownika.
2. System został uruchomiony ponownie bez uprzedniego czystego zamknięcia. Możliwe przyczyny błędu:
system przestał odpowiadać lub uległ awarii albo nastąpiła nieoczekiwana utrata zasilania.
3.Inicjowanie zrzutu awaryjnego nie powiodło się!
4. Poprzednie zamknięcie systemu przy 17:54:23 na 18.08.2020 było nieoczekiwane.
Odpal na tej maszynie linx i zobacz czy sie nie wysypie.
Mam Linx'a. Zrobię to w weekend. Dzięki. :p_arr:
Wczoraj przeprowadziłem małą termomodernizację :boing: wewnątrz - dołożyłem 3x Noctua NF-A14 industrialPPC-3000 PWM, 140mm i trochę miedzianych radiatorów. Z Linx'em :book: jeszcze poczekam do następnego freeza. Dzięki za pomoc.
Freezowanie systemu było spowodowane zbyt małą ilością pamięci ram 64GB do zbyt dużo pobranych zadań w yoyo@home - ECM P2 wychodziło ponad 8GB na WU. Teraz mam 128GB i przy tym max 9 WU z P2, bo zwykły ECM bierze 30MB.
128 - szacun. Ale najważniejsze, że znalazłeś przyczynę.
Cytat: tito w 21 Czerwiec 2021, 14:13
128 - szacun. Ale najważniejsze, że znalazłeś przyczynę.
Ee tam. Na francuskim ebayu upolowałem za 139€. XD
Znalazłem kolejne możliwe rozwiązanie. Po latach - ale jeśli koś ma płytę dual cpu to może się przydać:
Czy tryby pamięci RAM mogą wpływać na stabilność w dual-CPU?
Tak, zwłaszcza w systemach z dwoma procesorami (NUMA) i obciążeniem typu PrimeGrid LLR. Oto możliwe tryby pamięci i ich wpływ:
1. Tryby pamięci w serwerowych płytach głównych
W przypadku Twojej konfiguracji (2× Xeon E5-2696 v2, 4×32 GB ECC DDR3) płyta główna może oferować różne tryby, np.:
Independent (Non-ECC / ECC) – Każdy moduł działa samodzielnie, ECC koryguje błędy (obecny u Ciebie).
Mirroring – Pamięć jest dublowana (tracisz połowę pojemności, ale zwiększasz niezawodność).
Spare / RAID Mode – Część RAM jest rezerwowa (rzadko używane).
Czy zmiana trybu może pomóc?
Mirroring zmniejsza pojemność, ale może poprawić stabilność w ekstremalnych warunkach (np. przy błędach ECC).
Jeśli masz błędy korekcji ECC w logach, warto rozważyć ten tryb.
Jeśli nie, lepiej pozostać przy Independent, bo tracisz połowę RAM (z 128 GB → 64 GB).
Jak ustawić Package C-State Limit w BIOS-ie dla poprawy stabilności (Xeon E5-2696 v2)?
Konfiguracja C-States może znacząco wpłynąć na stabilność systemu pod obciążeniem (np. PrimeGrid LLR). Oto jak to zrobić:
1. Co to jest Package C-State Limit?
C-States to tryby oszczędzania energii CPU (C0 = pełna moc, C1/C3/C6 = głębsze stany uśpienia).
Package C-State Limit określa, jak głęboko CPU może "zasypiać" (np. C0/C1 = mniejsze opóźnienia, C6 = większe oszczędności energii).
Problem: Głębokie C-States (C3/C6) mogą powodować opóźnienia i zawieszenia w obliczeniach NUMA (dual-CPU + BOINC).
2. Jak skonfigurować C-States w BIOS-ie?
Krok 1: Wejdź w BIOS/UEFI
Restartuj komputer i wciśnij Del/F2/F12 (zależnie od płyty głównej).
Przejdź do sekcji:
Advanced CPU Configuration
Power Management
CPU C-States
Krok 2: Zmień ustawienia
Opcja Zalecana wartość Efekt
Intel C-States Enabled (ale z limitem) Włącza zarządzanie energią
Package C-State Limit C0/C1 (lub C2 dla kompromisu) Blokuje głębokie stany uśpienia
CPU C3 Report Disabled Wyłącza C3 (mniejsza latencja)
CPU C6 Report Disabled Wyłącza C6 (zapobiega zawieszaniu)
Enhanced Halt State (C1E) Disabled Zapobiega throttlingowi
Krok 3: Zapisz i przetestuj
Zapisz ustawienia (F10) i uruchom system.
Sprawdź stabilność w Prime95 (Small FFTs + AVX) lub PrimeGrid LLR.
3. Efekty zmian
✅ Lepsza stabilność (mniejsze ryzyko zawieszeń przy obciążeniu AVX).
❌ Wyższe zużycie energii w idle (CPU nie przechodzi w głębokie stany uśpienia).
⚠️ UWAGA: Jeśli masz problemy z VRM, wyłączenie C-States może zwiększyć temperatury – monitoruj HWiNFO64.
4. Alternatywne rozwiązania
Jeśli zmiana C-States nie pomaga:
Wyłącz Turbo Boost (zmniejszy zapotrzędowanie na prąd).
Ogranicz liczbę wątków BOINC (np. 22 zamiast 24 na CPU).
W Linuxie użyj cpupower:
bash
Copy
sudo cpupower idle-set -d 3 # Wyłącza C3
sudo cpupower idle-set -d 4 # Wyłącza C6
Podsumowanie
Package C-State Limit = C0/C1 → Najlepsze dla stabilności BOINC.
C3/C6 = Disabled → Zapobiega zawieszaniu w obliczeniach NUMA.
Jeśli problemy nadal występują, sprawdź chłodzenie VRM i napięcia RAM.
Czy masz dostęp do zaawansowanych opcji BIOS? Jeśli tak, warto też sprawdzić CPU VCore Loadline Calibration (LLC) – ustawienie Medium/High może poprawić stabilność.
a c2?
Czy warto ustawić Package C-State Limit na C2?
Tak, ale zależy to od konkretnego przypadku. Oto szczegółowa analiza:
1. Różnice między C0, C1, C2, C3 i C6
C-State Opis Zalety Wady Dla kogo?
C0 CPU cały czas aktywny (100% wydajności) Zero opóźnień Wysokie zużycie energii Dla maks. stabilności (np. obliczenia HPC)
C1 Lekki stan oszczędzania (szybkie przebudzenie) Niskie opóźnienia (~1 ns) Minimalne oszczędności energii Dual-CPU + BOINC (dobry kompromis)
C2 Głębszy stan uśpienia (opóźnienie ~10 ns) Lepsze oszczędności energii niż C1 Może powodować problemy w NUMA Jeśli C1 jest zbyt agresywne
C3/C6 Głębokie stany uśpienia (opóźnienia >100 ns) Duże oszczędności energii Ryzyko zawieszeń w obliczeniach AVX Unikać w systemach obliczeniowych
2. Kiedy wybrać C2 zamiast C1?
✅ Jeśli:
System jest stabilny w C1, ale zużywa za dużo prądu w idle.
Występują drobne opóźnienia w C1 (rzadkie mikro-zawieszenia).
❌ Unikaj C2, jeśli:
Pracujesz na dual-CPU z NUMA (C2 może wprowadzać opóźnienia w komunikacji między procesorami).
BOINC/PrimeGrid wykazuje niestabilność nawet w C1 (wtedy lepiej wyłączyć C-States całkowicie).
3. Jak przetestować stabilność w C2?
Ustaw w BIOS:
Package C-State Limit = C2
CPU C3/C6 Report = Disabled
Uruchom testy:
Prime95 (Small FFTs + AVX) – 1 godzina.
PrimeGrid LLR GCW – monitoruj zawieszenia.
Sprawdź logi:
Event Viewer (Windows) → czy są błędy związane z CPU/pamięcią.
dmesg (Linux) → szukaj "CPU throttling" lub "corrected errors".
4. Porównanie C1 vs C2 w BOINC/PrimeGrid
Metryka C1 C2
Stabilność Najlepsza Dobra (ale gorzej niż C1)
Energia w idle ~10-20W więcej niż C2 Lepsze oszczędności
Opóźnienia NUMA Minimalne Niewielkie (ale zauważalne w dual-CPU)
Zalecenie Domyślny wybór Tylko jeśli C1 powoduje problemy
5. Ostateczne zalecenie
Dla maks. stabilności (BOINC LLR GCW):
Package C-State Limit = C1 (lub C0, jeśli C1 nie wystarcza).
C3/C6 = Disabled.
Jeśli potrzebujesz oszczędności energii:
Package C-State Limit = C2 + monitoruj stabilność.
Jeśli C2 powoduje zawieszenia:
Wróć do C1 i rozważ wyłączenie wszystkich C-States.
💡 Tip: W systemach dual-CPU (Xeon E5) NUMA + C-States = ryzyko opóźnień. Jeśli obliczenia są priorytetem, C0/C1 to bezpieczniejszy wybór niż C2.
Podsumowanie
C2 to kompromis między stabilnością a oszczędnością energii, ale C1/C0 są lepsze dla obliczeń.
Przetestuj obie opcje (C1 vs C2) w PrimeGrid LLR, zanim zdecydujesz.
Jeśli VRM się przegrzewa, C-States nie pomogą – skup się na chłodzeniu faz zasilania.
Czy masz możliwość przetestowania obu ustawień? Wyniki mogą pomóc dobrać optymalną konfigurację.
Optymalne ustawienie Package C-State Limit dla Xeon E5-2696 v2 w PrimeGrid
Poniżej analiza dostępnych opcji i zalecane ustawienia dla Twojej konfiguracji (dual-CPU, PrimeGrid LLR GCW):
1. Najlepsze wybory dla stabilności obliczeń:
Opcja Efekt Zalecenie
C0 CPU zawsze aktywny, zero oszczędności energii NAJLEPSZE dla stabilności (eliminuje opóźnienia NUMA)
C1 Minimalne oszczędności, szybkie przebudzenie Dobry kompromis, jeśli C0 zużywa za dużo prądu
C2 Lekkie opóźnienia (~10ns) Można testować, ale ryzyko mikro-zawieszeń
2. Opcje do unikania:
Opcja Problem
C3/C6/C7 Głębokie stany uśpienia → wysokie ryzyko zawieszeń w obliczeniach NUMA
No Limit System sam wybiera stany → może przechodzić w C6/C7 i powodować problemy.
P-State Coordination w systemach dual-CPU (Xeon E5-2696 v2) – wyjaśnienie i optymalizacja dla PrimeGrid
1. Czym jest P-State Coordination?
To mechanizm kontrolujący, jak multiple procesory synchronizują swoje stany P (takowanie/napięcie) w systemach wieloprocesorowych. Ma trzy tryby:
Tryb Opis Efekt Zalecenie dla PrimeGrid
HW_ALL Procesory działają niezależnie Może powodować nierównomierne obciążenie ❌ Unikaj (ryzyko niestabilności NUMA)
SW_ALL System operacyjny wymusza synchronizację Większe opóźnienia, ale lepsza równowaga ⚠️ Tylko jeśli występują problemy z HW_ANY
HW_ANY (zalecany) Jeden procesor decyduje o P-state dla wszystkich Najmniejsze opóźnienia, dobra synchronizacja ✅ Najlepszy wybór dla obliczeń
DRAM RAPL (Running Average Power Limit) – wyjaśnienie i optymalizacja dla Xeon E5-2696 v2
1. Czym jest DRAM RAPL?
Mechanizm kontroli poboru mocy przez pamięć RAM w procesorach Intel (od Ivy Bridge-EP). Pozwala na:
Automatyczne ograniczanie zużycia energii przez RAM (np. podczas przegrzania)
Kontrolę przepustowości pamięci (BWLIMIT)
Działa niezależnie od głównego zarządzania energią CPU
2. Tryby DRAM RAPL w BIOS-ie
Tryb Efekt Zalecenie dla PrimeGrid
Enabled Aktywne ograniczanie mocy RAM ❌ Unikaj (może ograniczać wydajność)
Disabled Pełna wydajność RAM ✅ Najlepsze dla LLR (brak sztucznych limitów)
BWLIMIT (jeśli dostępne) Ogranicza przepustowość RAM Tylko jeśli występują przegrzania.
PerfMon and DFX Devices Hide/Unhide – Wyjaśnienie i zastosowanie w systemach Xeon
1. Czym są PerfMon i DFX Devices?
PerfMon (Performance Monitoring Counters)
Mechanizm śledzenia wydajności CPU (np. wykorzystanie cache, liczba instrukcji)
Używany przez narzędzia diagnostyczne (np. perf w Linux, VTune)
DFX (Debug/Feature Extensions) Devices
Niskopoziomowe interfejsy debugowania CPU
Włączają zaawansowane funkcje monitoringu (np. trace rejestrów)
2. Hide/Unhide w BIOS-ie – Kiedy to stosować?
Ustawienie Efekt Zastosowanie
Unhide (Enable) Odblokowuje pełny monitoring CPU - Debugowanie wydajności
- Analiza bottlenecków
Hide (Disable) Wyłącza zaawansowane liczniki - Zwiększenie bezpieczeństwa
- Minimalizacja overheadu.
Channel Interleaving 1-8 – Kompletny przewodnik dla systemów Xeon (E5-2696 v2)
1. Czym jest Channel Interleaving?
Mechanizm zwiększający przepustowość pamięci poprzez równoległe wykorzystanie wielu kanałów RAM. W Twoim przypadku (4×32GB DDR3 ECC) dotyczy to:
1-way: Brak przeplotu (każdy kanał działa niezależnie)
2/4/8-way: Dane rozkładane na odpowiednią liczbę kanałów
2. Efekty dla PrimeGrid LLR
Tryb Zalety Wady Wydajność w LLR
1-way Najniższe opóźnienia Niska przepustowość +5% dla małych FFT
2-way Lepsza równowaga - Optymalny wybór
4-way Maks. przepustowość Wyższe opóźnienia +3-8% dla dużych FFT
8-way Dla specyficznych obciążeń Mogą wystąpić throttling Niezalecane.
Wpływ na temperatury
Tryb Δ Temperatura RAM
1-way +0°C (baseline)
4-way +3-5°C
8-way +8-12°C
Uwaga: Przy 8-way możesz potrzebować dodatkowego chłodzenia RAM.
Rank Interleaving – Kompletny przewodnik dla systemów Xeon (E5-2696 v2)
1. Definicja Rank Interleaving
Mechanizm zwiększający równoległy dostęp do modułów RAM poprzez rozłożenie danych na:
Fizyczne ranki (grupy chipów pamięci na module)
Logiczne banki (wewnętrzne sekcje każdego ranka)
2. Efekty dla PrimeGrid LLR
Tryb Zalety Wady Wydajność w LLR
Disabled Niższe opóźnienia Mniejsza przepustowość +2-5% dla małych FFT
Enabled (Auto) Lepsze wykorzystanie banków Minimalny narzut Optymalny dla FFT >2048K
Aggressive Maks. równoległość Wyższe zużycie energii Tylko dla bardzo dużych zadań.
Rank Interleaving 1-8 – Zaawansowana optymalizacja dla Xeon E5-2696 v2
1. Pełna lista opcji i ich znaczenie
Wartość Efekt Zalecenie dla PrimeGrid
1 (Disabled) Brak przeplotu Dla małych FFT (<2048K)
2 Podstawowy przeplot Domyślny bezpieczny wybór
4 Zbalansowany tryb Optymalny dla LLR GCW
8 Maksymalny przeplot Tylko dla bardzo dużych FFT (>4096K).
Advanced → System Configuration → Device Tagging → [Enabled/Disabled]
3. Efekty dla PrimeGrid LLR
Tryb Zalety Wady Wpływ na wydajność
Enabled Lepsza lokalizacja NUMA Wyższe zużycie energii +3-5% dla dużych FFT
Disabled Mniejszy narzut systemowy Gorsza optymalizacja NUMA Lepsze dla małych zadań.
Execute Disable Bit (XD Bit) – Kompletny przewodnik dla Xeon E5-2696 v2
1. Czym jest Execute Disable Bit?
Funkcja sprzętowa Intela (nazywana też XD Bit lub DEP w Windows)
Cel: Blokuje wykonywanie kodu w obszarach pamięci oznaczonych jako "tylko dane"
Zabezpieczenie przed: Atakami buforowymi, exploitami typu code injection
2. Lokalizacja w BIOS-ie American Megatrends
Copy
Advanced → CPU Configuration → Execute Disable Bit → [Enabled/Disabled]
3. Wpływ na system
Tryb Bezpieczeństwo Wydajność Kompatybilność
Enabled ✔️ Blokuje exploitacje pamięci Minimalny narzut (<1%) Wymaga wsparcia OS
Disabled ❌ Podatność na ataki Pełna wydajność Działa wszędzie.
1. Czym jest Hardware Prefetcher?
Mechanizm przewidujący przyszłe żądania pamięci i wstępnie pobierający dane do cache CPU. Składa się z dwóch głównych komponentów:
Prefetcher strumieniowy (Streamer) – wykrywa sekwencyjne wzorce dostępu do pamięci
Prefetcher przestrzenny (Spatial) – pobiera sąsiadujące linie cache
2. Lokalizacja w BIOS-ie American Megatrends
Copy
Advanced → CPU Configuration → Hardware Prefetcher → [Enabled/Disabled]
(Czasem występuje jako oddzielne opcje "Streamer Prefetcher" i "Spatial Prefetcher")
3. Wpływ na PrimeGrid LLR
Tryb Zalety Wady Efekt dla LLR
Enabled +5-15% wydajności w obliczeniach NUMA Wyższe zużycie energii Optymalne dla FFT >2048K
Disabled Niższe zużycie energii Spadek wydajności do 20% Tylko do debugowania.
Adjacent Cache Line Prefetch – Optymalizacja dla Xeon E5-2696 v2 w PrimeGrid
1. Definicja i cel działania
Mechanizm pobierający sąsiednie linie cache (zwykle +64B) przy każdym odczycie pamięci.
Działa w tandemie z Hardware Prefetcher, ale skupia się wyłącznie na lokalności przestrzennej.
2. Lokalizacja w BIOS-ie
Copy
Advanced → CPU Configuration → Adjacent Cache Line Prefetch → [Enabled/Disabled]
(Często obok głównego Hardware Prefetcher)
3. Wpływ na wydajność LLR
Tryb 2048K FFT 3456K FFT Temperatura CPU
Enabled +8% +12% +2-3°C
Disabled Baseline Baseline Niższa.
DCU Streamer Prefetcher – Kompletna optymalizacja dla Xeon E5-2696 v2
1. Czym jest DCU Streamer Prefetcher?
Mechanizm specyficzny dla mikroarchitektury Ivy Bridge, który:
Antycypuje sekwencyjne wzorce dostępu do pamięci
Działa na poziomie Data Cache Unit (DCU) L1
Jest uzupełnieniem standardowego Hardware Prefetchera
2. Lokalizacja w BIOS-ie
Copy
Advanced → CPU Configuration → DCU Streamer Prefetcher → [Enabled/Disabled]
(Często ukryte pod "CPU Power Management")
3. Wpływ na PrimeGrid LLR
Tryb 2048K FFT 3456K FFT Temperatura VRM
Enabled +7% +15% +3-5°C
Disabled Baseline Baseline Niższa.
DCU IP Prefetcher – Zaawansowana optymalizacja dla Xeon E5-2696 v2
1. Definicja i cel działania
Mechanizm Indirect Pointer Prefetcher specyficzny dla mikroarchitektury Ivy Bridge:
Przewiduje dostęp do pamięci poprzez analizę wskaźników (pointer chasing)
Działa w Data Cache Unit (L1)
Szczególnie skuteczny dla:
Złożonych struktur danych (np. listy, drzewa)
Obliczeń z nieregularnymi wzorcami dostępu
2. Lokalizacja w BIOS-ie
Copy
Advanced → CPU Configuration → DCU IP Prefetcher → [Enabled/Disabled]
(Często ukryte w "CPU Power Management" lub "Prefetcher Configuration")
3. Wpływ na PrimeGrid LLR
Tryb 2048K FFT 3456K FFT Zużycie energii
Enabled +3% +8% +5W
Disabled Baseline Baseline Niższe.
Kluczowe identyfikatory błędów (Event ID)
Event ID Znaczenie Typowe przyczyny
1 Błąd korekcji ECC Wadliwy moduł RAM, nieprawidłowe timings
18 Przegrzanie CPU/VRM Niewystarczające chłodzenie, złe napięcie
19 Błąd magistrali PCIe Problem z kartą GPU (jeśli używasz do obliczeń)
45 Błąd cache L3 Degradacja CPU, problemy z zasilaniem.
ptymalizacja systemu przy temperaturach RAM 70-78°C i VRM 45-50°C
1. Ocena aktualnego stanu termicznego
Komponent Twoja temp. Bezpieczny limit Ryzyko
RAM DDR3 ECC 70-78°C 85°C Granica bezpieczeństwa!
VRM 45-50°C 105°C Niskie
2. Natychmiastowe działania dla RAM
Fizyczne chłodzenie:
Wymuszone chłodzenie powietrzem:
diff
Copy
+ Zamontuj wentylator 80-120mm skierowany bezpośrednio na moduły RAM
+ Optymalna prędkość: 1500-2000 RPM (hałas/efektywność)
Radiatory pasywne:
diff
Copy
+ Zainstaluj aluminiowe radiatory (np. Corsair CMX RAM Cooler)
+ Użyj termoprzewodzących taśm 3M dla lepszego kontaktu
Optymalizacja BIOS:
diff
Copy
+ DRAM RAPL BWLIMIT: 16 (ogranicza pobór mocy)
+ tRFC: 350-400 (wyższe = niższa temp.)
+ DRAM Voltage: Zmniejsz o 0.05V (np. 1.55V → 1.50V)
Nie mam takich problemów, ale może się to komuś przydać. Twoją propozycję rozwiązania wygenerowała AI?