Aktualności:

Nowy polski projekt BOINC - Universe@Home

Menu główne

przenosiny i problemy z dyskiem?

Zaczęty przez goofyx, 05 Kwiecień 2018, 22:34

goofyx

może ktoś mi coś doradzi.
Sytuacja w wersji chronologicznej wygląda tak:
1. GG@h CPU startuje na czystej instalacji debiana, czystej kompilacji serwera boincowego jako VPS <- który wymiękał już przy 20 hostach
2. zrobiłem kopię systemu na vps'ie za pomocą CloneZilli i przywróciłem tą kopię na fizycznym sprzęcie <- jakiś tam lapek hp proboook lite czy coś tam. I nawet chodziło przy 250 hostach
3. w lapku wymieniłem dysk z hdd 5400obr/s na ssd (sata chyba 1 ) i też podobnie j.w. czyli kopia cloneZilla i przywrócenie na ssd <- i nawet chodziło do 600-700 hostów... i wymiękło przy 1k hostów
4. kupiłem nowy sprzęt (mobo, cpu, psu, ram itp.), podpiąłem pod niego SSD z systemem z lapka i zaczęły się lekkie problemy <- na początku były mało dotkliwe... ot raz od czasu sprzęt zamulił się na 10-30 minut, ale wydalał przy 3k hostów
5. kapłem się, że w zasadzie zabrakło na dysku INodów (partycja ext4) ze względu na dziesiątki milionów małych pliczków
6. kupiłem drugi dysk ssd, zrobiłem partycje XFS na którą przeniosłem i zmapowałem w fstab katalog /home <- inodów jest wchole na obu dyskach.

Problem polega na tym, że baza danych przy większym obciążeniu po prostu umiera nie dając żadnej informacji w logach... <- w żadnych logach systemowych nic nie ma o błędach... logi po prostu się urywają w momencie kiedy dysk przestaje odpowiadać.
jednak co mnie zaciekawiło, że nie tylko baza danych umiera a w zasadzie cały serwer...

patrząc na wykresy z munina to wychodzi na to, że jak dysk ssd z systemem i bazą danych zaczyna być bardziej obciążony to umiera. Po restarcie komputera przez 5-10 minut mam komunikaty, że system skasował orphaned inode oraz, że naprawił jakiś tam iniode/sektor <- testy smart niczego nie wykazują.
co ciekawe próbowałem wyłączyć apache2, mysql i projekt oraz zrobić testy wydajnościowe jakimiś tam skryptami i dd... wszystkie przeszły pozytywnie, nawet te działające przez 10-15 minut.

1. Jedyne co mnie się nasuwa właśnie fakt, że dysk był instalowany na innym kompie i przepiąłem go na nowy sprzęt.
2. takie zachowanie wiąże też z tym, że coś może być nie tak z dyskiem albo partycją, wtedy system wykrywa błąd dysku/partycji i podpina ją w trybie tylko do odczytu

czy tak "hamska" zmiana sprzętu może powodować taki rezultat?


krzyszp

Zwróć uwagę na długie zapytania MySQL'a. Przy małej ilości wątków potrafią zatkać system.

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

goofyx

Cytat: krzyszp w 06 Kwiecień 2018, 12:13
Zwróć uwagę na długie zapytania MySQL'a. Przy małej ilości wątków potrafią zatkać system.
problem polega na tym, że nie wiem jakie to zapytania <- wszystko zamiera.
najczęściej dzieje się to jak puszczam skrypt do generownia zadań robiący file_stage + create_work i po 15 minutach mam wysyp systemu.
i co można zauważyć na munin'ie czas dostępu do dysku i inne jego parametry zaczynają nagle wzrastać i koniec

kva.pl

Przeniesienie systemu może mieć taki efekt, miałem to samo do tego stopnia że u mnie nawet kopiowanie większej ilości plików na raz zawieszało wszystko. Po czystej reinstalacji problem zniknął.

goofyx

Cytat: kva.pl w 06 Kwiecień 2018, 17:30
Przeniesienie systemu może mieć taki efekt, miałem to samo do tego stopnia że u mnie nawet kopiowanie większej ilości plików na raz zawieszało wszystko. Po czystej reinstalacji problem zniknął.
wolałem nie usłyszeć potwierdzenia takiej teorii :(
kurka... nie specjalnie bawi mnie reinstalacja serwera boinca :( <- nawet przy założeniu, że na tym sprzęcie potrwa to niecałą godzinę

goofyx

Cytat: goofyx w 08 Kwiecień 2018, 22:48
Cytat: kva.pl w 06 Kwiecień 2018, 17:30
Przeniesienie systemu może mieć taki efekt, miałem to samo do tego stopnia że u mnie nawet kopiowanie większej ilości plików na raz zawieszało wszystko. Po czystej reinstalacji problem zniknął.
wolałem nie usłyszeć potwierdzenia takiej teorii :(
kurka... nie specjalnie bawi mnie reinstalacja serwera boinca :( <- nawet przy założeniu, że na tym sprzęcie potrwa to niecałą godzinę
ps.: w takim razie czy przy założeniu że na tym dysku 99% roboty będzie pod bazę danych to warto stawiać partycję EXT4 czy może lepiej XFS albo BTRFS <- na necie są różne opinie, ale może ktoś ma doświadczenie pod tym kątem.