Tworzenie projektu... czyli powstanie i ewolucja Enigma@Home

Zaczęty przez TJM, 27 Lipiec 2007, 16:22

TJM

Podłubałem trochę w serwie, ciężko było bo ostatnio nie mam coś natchnienia
Wreszcie baza działa na tyle sprawnie, że mogłem przeczesać ją skryptem pod kątem wyników które nie zostały z różnych powodów odesłane do serwera M4 (czasami zdarza się jakiś błąd w komunikacji, a że nie zawsze jest to błąd który sam minie, zadania takie są oznaczane i automat nie próbuje drugi raz ich odsyłać), nie wiedziałem nawet że w sumie było ich kilkadziesiąt tysięcy, po odesłaniu szacowany czas do końca keyspace skrócił się w sumie o miesiąc

Fajnie by było jakby jakiś czas wszystko gładko chodziło, wreszcie byłby czas na poprawienie/dodanie paru pierdół które wiszą mi na liście zmian od dość dawna, jak np. logo czy błędy w certyfikacie %-)

Jutro chyba startuje nowa aplikacja dla Maców, dziś ją z grubsza przygotowałem ale ze względu na późną porę nie będę już dodawał, bo nie mam zamiaru w środku nocy wstawać jeśli coś nagle się sypnie  :D

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

TJM

I chwilowa przerwa w prawidłowym działaniu projektu ze względu na awarię gigabitowego switcha, przyniosłem już ze sklepu inny ale trzeba go przerobić na zasilanie z UPSa, trochę się zejdzie zanim serwery odzyskają łączność, podczas gdy będę kombinował.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

TJM

Ostatnio jakieś ciężkie dni nadeszły dla projektu, dwa razy z rzędu w nocy brakło RAMu na moim http proxy, przez co serwer całkowicie przestawał odpowiadać. Choćbym osiwiał od myślenia nie wiem jak to możliwe, od samego początku konfiguracja tego proxy jest cały czas taka sama, nie powinna go zamulić nawet ekstremalna liczba requestów, bo przy więcej niż 20 na raz odrzuca kolejne połączenia. Jedyne co mi do głowy przychodzi, to że zamulił się któryś ze skryptów pobierających statystyki i nie zamykał się poprawnie, przez co kumulowała się liczba uruchomionych kopii, ale to też naciągana teoria. W każdym razie dodałem do skryptów sprawdzanie, czy już nie są uruchomione, zobaczymy czy kolejną noc serwer przetrwa  XD

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

TJM

Dorzuciłem ostatnio jeszcze jeden dysk do serwera projektu, żeby trochę odciążyć inny dysk, wygląda na to, że spowodowało to problemy. Serwer od tamtej pory 3 razy już się zwiesił z kernel panic, w logach śladów żadnych nie ma, przy zwisie jest na ekranie końcówka komunikatu o błędzie, ale to co by mnie najbardziej interesowało jest wyżej, a ekranu przewinąć się nie da  :D
Widziałem jednak przy jednym ze zwisów, że po fakcie nowo podłączony dysk nie ujawnił swojej obecności nawet dla BIOSu, więc to pewnie on destabilizuje sprzęt. Dziwne, bo wyjąłem go z innego serwera gdzie przestał być potrzebny a działał kilka miesięcy bez najmniejszych problemów.
Mam nadzieję, że po prostu gryzie się z kontrolerem i mam zamiar wyłączyć na chwilę serwer żeby podpiąć dodatkowy kontroler na PCI.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

TJM

Dwie przerwy w działaniu projektu dzisiaj, wszystko przez dziadowski switch. Coś się w nim mota przy zasilaniu z przetwornicy 12V->7V (używam takich do zasilania urządzeń typu switche/routery z jednego z serwerów - wychodzi taniej niż osobny zasilacz do każdego złomu). Przy oryginalnym 7V zasilaczu chodzi dobrze, wkurzony rozebrałem go dziś (bajbaj gwarancja) i zauważyłem, że w środku i tak jest przetwornica, na pierwszy rzut oka będąca w stanie pracować z napięciem wejściowym do 25V (limitują je kondensatory na wejściu, sam układ przetwornicy katalogowo 40V). Podłączyłem więc zasilanie prosto z +12V z kompa i jak na razie chodzi, nic się nie przegrzewa więc może będzie tak działał. Jedynie przetwornica trochę szumi, ale po założeniu obudowy nic nie widać, poza tym właśnie zalałem jej cewki klejem  XD


EDIT: Chyba po switchu, dalej się motał i chyba padła ta wbudowana przetwornica, widzę że było wbudowane zabezpieczenie przed większym napięciem, więc może uda mi się dobudować w środku 3.3V zasilacz, tymczasem serwer śmiga na jednej sieciówce z trzech a w jakiś magiczny sposób wszystkie 3 wewnętrzne IP są widoczne w sieci  :o

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

RAD-Poland

#845
@TJM przy okazji zerknij na czas systemowy serwera,
w niektórych przypadkach aktualizacja statystyk wygląda jakby to były dane z przyszłości ok +10min  ;)

chyba, że nie potrzebnie oddaję 2h do czasu utworzenia plików, dziwne, dotychczas system sam dodawał 2h do time_UTC, teraz dodałem przesuniecie ręcznie (tak duże opóźnienie statów byłoby również dziwne), wszystko wskazuje na zegar systemowy (mogę się mylić)

np:
19:00-19:15 - pojawiają się pliki datowane na 17:25
19:18 - ściągnięcie danych
19:23 - wysłanie na forum B@P (po dodaniu 2h wychodzi, że o 19:15 dostępne są dane z 19:25)



EDIT: a tak przy okazji, czy są jakieś plany dotyczące wyścigu w projekcie ?

   
WCG:
PG:         YOYO:

     

Pigu

jak optymalki do milki? coś się zmieniało - w końcu to teraz proj miesiąca i warto odświeżyć sobie tę wiedzę %)

TJM

Cały wolny czas dziś poszedł na walkę z tym cholernym switchem, ale chyba przerobiłem dziada :D Oryginalna przetwornica umarła całkiem, znalazłem jednak EZ1585CT/3.3 wyjętą ze starego Voodoo3 PCI. 'Trochę' kombinowania, stare układy wyłupałem śrubokrętem, wyjąłem trochę zbędnych elementów i zastępcza weszła na miejsce starej razem z radiatorem:

Oryginał tuż przed rozbiórką:



i po przeróbce:




I nawet mam dowody niezbite, że to działa:

http://www.youtube.com/watch?v=GN3BXb5g9Ug

http://www.youtube.com/watch?v=b0_0zAavqIw


W kwestii optymalizacji - dla Intela najlepsze powinny być te ostatnio uploadowane w tym poście (z wyjątkiem tych, które nie działają %))
Dla AMD możecie pożebrać u tego gościa http://www.enigmaathome.net/show_user.php?userid=2629 - ma chyba najszybsze exeki pod AMD i do tego 64-bitowe, weryfikowałem na jego prośbę rezultaty nawet ręcznie na kartce papieru i wszystko wygląda ładnie, więc chyba można używać. Niestety linux only.

Czas serwera jest chyba synchronizowany z atomowym bigbenem, ale zobaczę jeszcze jak to wygląda - możliwe, że kiedy pada sieć przestawia się z jakiegoś powodu, a wczoraj i dziś padów sieci chyba z tysiąc miałem.

Co do wyścigu - jeśli ktoś pomoże przy organizacji, to nie widzę problemu, żeby coś wykombinować, serwer jest w stanie zwrócić w jakimś wygodnym formacie dane potrzebne do wygenerowania w 100% zgodnych z rzeczywistością wyników (z punktu widzenia czasu pobrania i odesłania zadań, tak jak w PrimeGrid).

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

TJM

Tutaj jest chyba najszybsza 32 bitowa aplikacja pod procki Intela http://plikens.no-ip.net/1125x81zs7/enigma0.76windowsintelx86.rar - sam exek, reszta fantów jest w poście na forum projektu http://www.enigmaathome.net/forum_thread.php?id=17


EDIT: zmieniłem serwer NTP według którego aktualizował się czas serwera (i narzędzie z jakiegoś skryptu na ntpdate), bo stary odpowiadał tak wolno, że w rezultacie wskakiwał jakiś dziwny offset i progs ustawiał czas 6-8 minut do przodu.
Teraz czas serwera jest niby naszym czasem lokalnym, chyba nie widzę przeszkód żeby tak nie było - wcześniej był (teoretycznie) GMT+0.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

buninek


3Rni


Simek

Cytat: ERni w 02 Maj 2009, 11:31
a co aktualnie obowiązuje pod win64 intel ?

http://plikens.no-ip.net/1125x81zs7/enigma0.76windowsintelx86.rar

Rozmawiałem z TJM i nie ma sensu używania aplikacji 64 bitowej, ponieważ zysk był by praktycznie żaden,  a powyższa aplikacja 32 bitowa jest aktualnie najszybsza, używam jej na 64 bitowym systemie.

AiDec

Cytat: buninek w 02 Maj 2009, 11:26
Optymalki dla proców AMD pod linuksa 64 i 32.
http://www.adrive.com/public/5648c9d2e9777e85c73b2b906f65d6dccd008c60943710652ade106a81dd6a75.html

Zatem przerzucam mojego glownego Enigmowego kompa na Linuksa :).


Cytat: Simek w 02 Maj 2009, 11:46
(...)powyższa aplikacja 32 bitowa jest aktualnie najszybsza, używam jej na 64 bitowym systemie.

Ja rowniez i nie narzekam :).



Bo jest paru kumpli :),
Bo jest parę w życiu dobrych chwil...


Moja wizytowka i sygnaturka

TJM

Lekka kapa jest, serwer M4 coś muliście odpowiada i w związku z tym pojawiły się braki nowych zadań. Napisałem do Stefana Kraha, ale nie wiem kiedy można spodziewać się odpowiedzi.


W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

KrzychuP

Cytat: Simek w 02 Maj 2009, 11:46
Cytat: ERni w 02 Maj 2009, 11:31
a co aktualnie obowiązuje pod win64 intel ?
http://plikens.no-ip.net/1125x81zs7/enigma0.76windowsintelx86.rar

Uwaga! Przed zmianą aplikacji lepiej doliczyć aktualne próbki do końca. U mnie wywaliło rozpoczętą, po zamianie na tą optymalkę.

TJM

To chyba standard w BOINCu przy przesiadce między różnymi wersjami aplikacji, akurat wszystkie enigmy są ze sobą kompatybilne, ale błąd i tak wyskakuje tak 'dla zasady'.
Czasami też wywala cały bufor, ale dlaczego - najstarsi indianie nie wiedzą.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

lukaszde

hmm TJM czyzby cos sie dzialo z serwerem ?
3 May 2009 22:50:07 UTC, updated every 5 minutes.
Results ready to send   0

Troll81

U mnie też zero WU. Resetowanie projektu i aktualizowanie go nie pomaga....  :-\

emik

Cytat: lukaszde w 04 Maj 2009, 00:52
hmm TJM czyzby cos sie dzialo z serwerem ?
3 May 2009 22:50:07 UTC, updated every 5 minutes.
Results ready to send   0

Cytat: Troll81 w 04 Maj 2009, 09:09
U mnie też zero WU. Resetowanie projektu i aktualizowanie go nie pomaga....  :-\


Cytat: TJM w 03 Maj 2009, 23:06
Lekka kapa jest, serwer M4 coś muliście odpowiada i w związku z tym pojawiły się braki nowych zadań. Napisałem do Stefana Kraha, ale nie wiem kiedy można spodziewać się odpowiedzi.




szczęśliwi ci co mają wu w buforku XP


KrzychuP


TJM

Zadania są ale po prostu za mało żeby utrzymać pełny bufor na serwerze, z jakiegoś powodu serwer M4 dalej kiepawo działa 400-500 zadań na godzinę to max co da się ściągnąć, a potrzeba co najmniej 700-800 dla pełnej płynności.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

AiDec

Wina softu, czy hardware? Jesli chodzi o oprogramowanie BOINC`owe to sorry, ale jesli to cos, cokolwiek hardware`owego to rzuc problem tutaj - moze cos poradzimy. Co tysiac glow to nie jedna :).



Bo jest paru kumpli :),
Bo jest parę w życiu dobrych chwil...


Moja wizytowka i sygnaturka

3Rni

hmm trochę kulawo a miałem dziś odpalić kilka dopalaczy a tymczasem główna flota zaczyna się obijać z braku wu....

nie ma szans na więcej wu?

TJM

Po prostu serwer M4 odpowiada wolno, nic na to nie jestem w stanie poradzić. Dziwna sprawa, bo u mnie wszystko wygląda ok, na trasie pakietów wszystko wygląda ok, u Stefana wszystko też wygląda ok, a jednak komunikacja jako całość KULEJE. Chwilami jest lekka poprawa, ale na razie kiszka i tak.
Wniosek z tego prosty, jak tylko serwer zacznie działać normalnie, wracam do starego bufora lokalnego o wielkości 100,000 zadań. Baza wtedy działa 100 razy wolniej ale przynajmniej w razie problemów bufor starcza na kilka dni  ;D
Btw, rzućcie okiem na to http://www.enigmaathome.net/forum_thread.php?id=109


W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

buninek

Cytat: TJM w 04 Maj 2009, 12:35
Btw, rzućcie okiem na to http://www.enigmaathome.net/forum_thread.php?id=109


Ja już od soboty testuję. Nawet nie wiedziałem o istnieniu kompilatora od AMD.
Możliwości ma spore.
Na razie żadna z moich kompilacji z użyciem Open64 nie jest lepsza od tej z gcc-3.4.6.
Moje czasy AMD x2 4200@2730 to
gcc-3.4.6 - 2:59s
Open64    - 3:17s

EDIT:
Pobrałem te kompilacje i zrobiłem test na jedenej z nich.
enigma_0.76_i686-pc-linux-gnu_Athlon64_64
3:19s :(

TJM

Sytuacja z serwerem M4 chyba wróciła do normy, na wszelki wypadek nachapałem już 50,000 zadań do bufora, jak serwer trochę odsapnie nachapię od razu ze 200k - w razie kolejnych problemów tyle powinno wystarczyć na parę dni.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

TJM

W okolicach łikendu (prawdopodobnie niedziela, albo noc z soboty na niedzielę) chyba nastąpi przerwa techniczna na backup całości, upgrade serwera do nowszej wersji i przerzucenie tabeli results na i-RAMa - majowy PoTM ładnie w palnik daje serwerowi i przed chwila ktoś dzwonił, że scheduler przy próbie połączenia daje cynk o problemach z MySQLem, sprawdziłem i rzeczywiście tak było  :attack:



Jak widać serwerek trochę się przeciążył  :D

Do tego czasu muszę jakoś ustalić sposób synchronizacji tabeli (pojedyńczy plik, po prostu softlinkowany do struktury katalogów MySQLa) na potencjalnie ulotnym w razie problemów nośniku, jak na razie jedyny pomysł jaki mam, to replication slave na hdd, tylko pytanie czy w razie czego tabelę da się po prostu skopiować.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

Troll81

a mnie nadal nie pobiera WU :( resetowanie projektu i update nie pomaga :(

TJM

Nie masz czasami managera w wersji 6.6.x z 'x' poniżej 19 ? Tam w nich był taki śmieszny bug, że czasami pobierało tylko jeden workunit i więcej nie chciało, nawet na wieloprocesorowych maszynkach czasami kisiło się z jednym.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

Troll81


lukaszde

TJM czyli to oznacza, ze aktualna liczba userow liczacych w projekcie to w zasadzie gorna granica tego co pociagnie serwer ?  ???

Troll81


TJM

Mniej więcej połowa górnej granicy, bo przełączając parę rzeczy wydajność serwera rośnie ponad dwukrotnie. Największy wpływ ma proporcja hceyz72/awgly100, bo te drugie workunity są średnio ponad 2 razy dłuższe, więc mniej ich potrzeba w bazie przy takiej samej średniej prędkości projektu.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

Troll81

2009-05-07 20:17:44   Enigma@Home   Resetting project
2009-05-07 20:17:46   Enigma@Home   Sending scheduler request: Requested by user.
2009-05-07 20:17:46   Enigma@Home   Requesting new tasks
2009-05-07 20:17:51   Enigma@Home   Scheduler request completed: got 0 new tasks
2009-05-07 20:17:54   Enigma@Home   Started download of enigma_icon.png
2009-05-07 20:17:54   Enigma@Home   Started download of enigma_slide_01.png
2009-05-07 20:17:56   Enigma@Home   Finished download of enigma_icon.png
2009-05-07 20:17:56   Enigma@Home   Started download of enigma_slide_02.png
2009-05-07 20:17:57   Enigma@Home   Finished download of enigma_slide_01.png
2009-05-07 20:17:57   Enigma@Home   Started download of enigma_slide_03.png
2009-05-07 20:17:58   Enigma@Home   Finished download of enigma_slide_02.png
2009-05-07 20:17:58   Enigma@Home   Started download of enigma_slide_04.png
2009-05-07 20:18:00   Enigma@Home   Finished download of enigma_slide_03.png
2009-05-07 20:18:00   Enigma@Home   Started download of enigma_slide_05.png
2009-05-07 20:18:01   Enigma@Home   Finished download of enigma_slide_04.png
2009-05-07 20:18:01   Enigma@Home   Finished download of enigma_slide_05.png
2009-05-07 20:18:01   Enigma@Home   Started download of enigma_slide_06.png
2009-05-07 20:18:01   Enigma@Home   Started download of enigma_slide_07.png
2009-05-07 20:18:02   Enigma@Home   Finished download of enigma_slide_06.png
2009-05-07 20:18:02   Enigma@Home   Started download of enigma_slide_08.png
2009-05-07 20:18:02   Enigma@Home   Sending scheduler request: Requested by user.
2009-05-07 20:18:02   Enigma@Home   Requesting new tasks
2009-05-07 20:18:03   Enigma@Home   Finished download of enigma_slide_07.png
2009-05-07 20:18:05   Enigma@Home   Finished download of enigma_slide_08.png
2009-05-07 20:18:08   Enigma@Home   Scheduler request completed: got 0 new tasks

data-driven web pages   Scytheran   Running
work wrapper, master db   Pedziwiatr   Running
upload/download server   Ravager   Running
scheduler   Ravager   Running
feeder   Ravager   Running
transitioner   Ravager   Running
file_deleter   Ravager   Running
db_purge   Ravager   Running
vassalidator   Ravager   Running

hceyz72
workunits remaining    1661110
workunits done    4032890
keyspace walks    354.14/500
workunits/day    36597
Projected completion time    22.06.2009
awgly100
workunits remaining    4002310
workunits done    1691690
keyspace walks    148.55/500
workunits/day    5285
Projected completion time    04.06.2011
server stats
Workunits validated last hour    1026
CPU hours/hour1    4755
Error rate2   2.346%
Result average turnaround time3   1.62d
Wrapper's local buffer state
Input4   188697
Output5   0
Server state
Results ready to send6   2,109
High priority results7   0
Results in progress   67,356
Workunits waiting for validation   0
Workunits waiting for assimilation   21
Workunits waiting for deletion   0
Results waiting for deletion   0
Transitioner backlog (hours)   0

no to ja już nie rozumim. WU na serwerze zalegają a mi scheduler odpowiada "dupa"

nowy manager zainstalowany (6.6.20)

sesef

zainstaluj najnowszy ten "nie stabilny", bo 6.6.20 u mnie też miewał problemy z downloadem WU

TJM

Trochę to dziwne, bo manager requestuje zadania, więc nawet jeśli chce tylko 1 sekundę pracy, powinien dostać chociaż jedno.
Jaki to id hosta ? Mogę sprawdzić logi schedulera i zobaczyć dlaczego nic nie wysyła.
Jest jeszcze opcja, że trafiasz w momenty kiedy feeder jest pusty, feeder trzyma na raz chyba tylko 50 zadań, a tyle może wyssać jeden host jednym requetem, potem napełnia się od nowa. Ale rozumiem trafić tak raz czy dwa razy pod rząd - to nic strasznego, po to mamy w BOINCu bufory. Ale trafiać tak cały czas to musiałby być jakiś gruby zonk %-)

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

Troll81


TJM

Cytat

2009-05-03 02:13:31.4030 [PID=28724] [normal  ]  Request: [USER#1482] [HOST#3147
] client 6.4.7, work req 117552 sec
2009-05-03 02:13:31.4140 [PID=28724] [normal  ]   Sending reply to [HOST#3147]:
0 results, delay req 86400.000000 [scheduler ran 0.749412 seconds]


I to jest dziwne, bo zaraz po tym kilka innych hostów się łączyło i dostawało zadania. Możesz luknąć w parametry typu rdcf itp i zobaczyć, czy nie ma tam jakichś niespotykanych cudów ? Delay req 86400 to chyba 24h, tak jakby coś było bardzo źle (np. daily quota = 1)

Ten 6.6.20 po prostu nic nie requestuje:

Cytat
2009-05-07 19:42:33.8923 [PID=25625] [normal  ]  Request: [USER#1482] [HOST#3147
] client 6.6.20, work req 0 sec
2009-05-07 19:42:33.8935 [PID=25625] [normal  ]   Sending reply to [HOST#3147]:
0 results, delay req 242.400000 [scheduler ran 0.539885 seconds]

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

Troll81

teraz to już mam 6.6.28 :D i dalej gówn@#$%

a gdzie ja ci ten parametr rdcf znajdę???

Szopler

taa te nowe 'managiery" mają wyraźny problem z pobieraniem zadań... np. Milka - ponad 800 WU w bazie a ten przez godzinę nic nie ciągnie... żal.pl normalnie...