Niepobieranie WU przez BM

Zaczęty przez AiDec, 28 Sierpień 2008, 20:34

AiDec

BOINC Manager nie pobiera mi WU z Yoyo w dosc specyficznej sytuacji:

Zostala mi juz tylko jedna probka z Yoyo (+jeden Orbit i kilka SHA1 - czyli NIC wielkiego). Probka ta jest przeliczona w 80%. Ustawienia w BAM i bezposrednio w projekcie prawidlowe (z reszta probowalem tez innych). Generalnie Yoyo ma u mnie 90% mocy z BAM przy 10% na inne projekty (w sumie). Na stronie projektu w `generalkach` ma mi zapewniac dosc pracy na 10 dni (!) (probowalem przy ustawieniach 1, 5, 10 dni). Polaczenie z internetem aktualnie co 1 dzien (bylo 0, 0.1, 5, 10).

Co bym nie robil, to BM nie chcial wiecej WU... Nie zadal ich. Zawsze zadal 0 sekund !!! Sytuacja miala miejsce przez 3 dni. Wreszcie dzisiaj nie wiadomo kiedy (jak bylem w pracy) sciagnal 2 kolejne WU. Tylko dwa. Dlaczego?

Zaznacze ze Yoyo idzie u mnie na kilku innych kompach, na takich samych ustawieniach (w BAM i w projekcie - trudno zeby nie :P) i WU sciagaja sie calkiem prawidlowo. Czy ktos zna prawdopodobna przyczyne?



Bo jest paru kumpli :),
Bo jest parę w życiu dobrych chwil...


Moja wizytowka i sygnaturka

Szopler

Ja z kolei zauważyłem, że ściąga max 5 WU na raz. Przy większej ilości rzuca się, że nie zdąży w deadline. No i strasznie szacuje czas obliczeń WU. Podaje np. 38h a liczy 1h20min. Na tym opiera ilość WU jaką dosyła a nie na rzeczywistym czasie... chyba, bo za krótko siedzę w tym projekcie żeby na 100% coś powiedzieć.

AiDec

Cytat: Szopler w 28 Sierpień 2008, 21:06
No i strasznie szacuje czas obliczeń WU. Podaje np. 38h a liczy 1h20min.

To prawda - na poczatku myslalem ze mi komp nawala... Kazda WU opisana na 38h, a kazda przeliczona w innym czasie od 30 min do 10h... Ale jak mi wszystkie kompy tak licza to sie przestalem bac.


Cytat: Szopler w 28 Sierpień 2008, 21:06
Na tym opiera ilość WU jaką dosyła a nie na rzeczywistym czasie... chyba, bo za krótko siedzę w tym projekcie żeby na 100% coś powiedzieć.

Jakby na tym opieral, to i tak powinienem dostac 20 WU...



Bo jest paru kumpli :),
Bo jest parę w życiu dobrych chwil...


Moja wizytowka i sygnaturka

AiDec

#3
Bez zmian na lepsze. Sa zmiany na gorsze - kolejny komp zaczal mi `requestowac` w tym projekcie 0 sekund mimo ze ma do roboty tyle co polscy poslowie. Pisze o dwoch zupelnie innych kopmach, systemach, a nawet Managerach.

EDIT: Cholera jasna nastepny tez... Jakis pomor normalnie... Boje sie sprawdzac kolejne kompy... Ja rozumiem jakies klopoty z serwami i inne takie. Ale dlaczego mam request 0 sec? No normalnie swiat schodzi na psy i koty...



Bo jest paru kumpli :),
Bo jest parę w życiu dobrych chwil...


Moja wizytowka i sygnaturka

TJM

#4
Za jakiś czas powinno zacząć pobierać zadania na zapas. Problem na pewno częściowo leży w tym, że zadania mają różną długość (pojedyńczy OGR-Stub może zająć od kilku sekund do kilkudziesięciu godzin na procu typu Q6600@3GHz a workunit składa się z 8.) i żeby hosty nie ściągały kosmicznych ilości zadań których potem nie poprzeliczają, rsc_fpops_est ustawiony jest bardzo wysoko. W rezultacie host nie ściąga zadań na zapas póki RDCF nie dopasuje się z grubsza do średniej długości. Pomaga trochę ustawienie większego bufora i resource share dla yoyo, np. 10000 a dla reszty projektów po 100.

P.S. Uważajcie przy restartowaniu managerów podczas przeliczania yoyo, dnetc jest odporny na zatrzymywanie go z poziomu wrappera (przynajmniej na linuksie) i zostaje w pamięci licząc aktualny stub do końca. Dziwiłem się, czemu od 3 dni mój host który dobrze radził sobie w yoyo nie przeliczył nic - dzisiaj zajrzałem do top'a a tam kilkanascie procesów dnetc walczących o czas CPU, zapewne rezultat parokrotnego restartowania managera kilka dni temu.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

Troll81

może wstrzymuje wysylanie zadań do 1 września?? bo sporo osób chciałoby na zapas pobrać i zaczać przeliczać juz w sierpniu by odesłać we wrześniu.

AiDec

Cytat: Troll81 w 30 Sierpień 2008, 10:13
może wstrzymuje wysylanie zadań do 1 września?? bo sporo osób chciałoby na zapas pobrać i zaczać przeliczać juz w sierpniu by odesłać we wrześniu.

To nie jest wstrzymywanie. To nie jest `nieprzyznawanie` WU. Mnie chodzi o to ze BM nawet nie zada zadan. Przyklad: mam tylko jedno WU, przeliczone na 80%, na dwujajowcu oczywiscie resource share 100% i qpa. Nie zada nic. Jakbym nie pobral jakichs SHA-1, to komp w srodku nocy stalby bezczynny. :(



Bo jest paru kumpli :),
Bo jest parę w życiu dobrych chwil...


Moja wizytowka i sygnaturka

RAD-Poland

#7
Cytat: TJM w 30 Sierpień 2008, 09:19
Za jakiś czas powinno zacząć pobierać zadania na zapas. Problem na pewno częściowo leży w tym, że zadania mają różną długość (pojedyńczy OGR-Stub może zająć od kilku sekund do kilkudziesięciu godzin na procu typu Q6600@3GHz a workunit składa się z 8.) i żeby hosty nie ściągały kosmicznych ilości zadań których potem nie poprzeliczają, rsc_fpops_est ustawiony jest bardzo wysoko. W rezultacie host nie ściąga zadań na zapas póki RDCF nie dopasuje się z grubsza do średniej długości. Pomaga trochę ustawienie większego bufora i resource share dla yoyo, np. 10000 a dla reszty projektów po 100.


można to zmienić ręcznie, ale wymaga fizycznego dostępu do komputera


najpierw trochę teorii:
w YOYO@home próbki ogr mają ustawiony
rsc_fpops_est - 200000000000000.000000
co dla Q6600@3GHz (o ile to ten host)
o
Measured floating point speed   2737.02 million ops/sec
i
duration_correction_factor - 1.000000
przy pierwszym połączeniu przewidywany czas przeliczania
73072 sek - ok  20h
po odsyłaniu próbek ten czas się skraca zgodnie z korektą RDCF_pl ;) ale trwa to bardzo długo



metoda pozyskania próbek (nie przesadzać !!! - ewentualnie wstrzymać ściąganie próbek do odesłania pierwszej próbki)

1. wyłączyć BOINC'a

2. w pliku client_state.xml wyszukać projekt YOYO
Cytat<master_url>http://www.rechenkraft.net/yoyo/</master_url>
    <project_name>yoyo@home</project_name>

3. kilka linii niżej jest
<duration_correction_factor>0.879740</duration_correction_factor> (wartość może być inna)

4. zmieniamy tę wartość na
<duration_correction_factor>0.050000</duration_correction_factor>
co oznacza w naszym przykładzie, że przy połaczeniu z serwerem boinc zadeklaruje przewidywany czas przeliczania wu
73072 sek x 0,05 = 3650 sek

5. włączyć BOINC'a



po odesłaniu pierwszej próbki duration_correction_factor zmieni się sam na prawidłowy, chyba że trafisz na bardzo długą próbkę

powodzenia w łowieniu próbek i wyścigu YOYO - Final Push for ogr Challenge



EDIT: zmieniłem 0.01 na 0.05 - bo się Manager przyblokował, po zmianie ściągnął prawie setkę wu

   
WCG:
PG:         YOYO:

     

Szopler

Hmm zrobiłem jak zapisałeś i nic mi nie pobiera...

RAD-Poland

#9
ustawiłeś 0.05 ?
spróbuj przeliczyć 1 wu i odesłać


EDIT: u mnie ustawił się po odesłaniu wu na
<duration_correction_factor>0.067663</duration_correction_factor>
może wpisz taki  :-\


EDIT2: widzę, żę masz ściągnięte po kilka wu z 27.08 - przypadkiem nie masz wstrzymanego przeliczania tych jednostek
aby boinc ściągał próbki, nie może być żadna wstrzymana ...
CytatProjekt (P) jest pobieralny (fetchable) (polityka pobierania zezwala na jego pobieranie) jeśli:

    * P nie został wstrzymany,
    * P nie oczekuje na ponowne połączenie (upłynął odpowiedni czas od ostatniego żądania),
    * opcja "nie pobieraj danych" P nie została wybrana,
    * P nie jest przepracowany (definicja poniżej),
    * pobieranie aplikacji P nie jest "oczekujące"
szerszy opis http://boincatpoland.home.pl/wiki/Dzielenie_czasu_procesora_mi%C4%99dzy_projekty

   
WCG:
PG:         YOYO:

     

Szopler

#10
Miałem wstrzymane...
LOL Zaszalało... na jednym kompie 62 próbeczki, na drugim 72 ;).
Deadline 14.09.2008, a że podczas wyścigu liczę tylko YoYo 24h/d (reszta projektów doliczona i odesłana) - zdążę :P.
Zablokowałem pobieranie nowych, jak przeliczy, odeśle i poprawi correction_factor na bliższy prawdzie to zapuszczę ściąganie następnych.
Założyłem nawet dodatkowe chłodzenie chipsetu ;), a w poniedziałek przyjdą miedziane radiatorki na mosfety...

RAD-Poland

#11
widzę, że ruszyło  ;D

wstrzymaj pobieranie ręcznie gdy uznasz, że próbek ci starczy  ;)
ponieważ bywają niektóre naprawdę dłuuuugie

jak nie wyłączysz to co 5 min ściągnie kolejne 30 wu itd aż do 250 lub 500


CytatZałożyłem nawet dodatkowe chłodzenie chipsetu Mrugnięcie, a w poniedziałek przyjdą miedziane radiatorki na mosfety...
u mnie też zmiany
projekt ponoć zoptymalizowany, ale i tak mniej wygrzewa CPU niż PrimeGrid temp spadły do 46C i 47C na rdzeniach podniosłem taktowanie o kolejne 100MHz teraz 50-51C (generalnie zrobł się z AthlonX2_3800+ 4400+) :)

   
WCG:
PG:         YOYO:

     

AiDec

#12
Swietne porady RAD :). Twoje uwagi byly bardzo cenne i pomogly. Po zmianie w client[...] na <duration_correction_factor>0.050000</duration_correction_factor> wszystko ruszylo tak jak powinno byc. Mialem <duration_correction_factor>1.168635</duration_correction_factor>. Ni cholery nie wiem dlaczego... Moze wiesz?

Swoja droga rzuciles nam tutaj sporo teorii. Skad taka wiedza? (pytam tylko z ciekawosci).

Anyway chcialbym dodac swoje trzy grosze w temacie. Z teorii jestem kiepski. W BOINC dopiero 2 miechy. Malo czasu. Ale testuje, kombinuje, sprawdzam, rozne ustawienia... Nie zawsze prawda jest ze projekt nie moze byc wstrzymany jesli chcemy sciagnac probki. Wielokrotnie sciaga, mimo ze jest wstrzymany. Dziala choc nie powinien :P. Tylko taka drobna uwaga :).

Jeszcze raz dzieki za cenne porady RAD :).



Bo jest paru kumpli :),
Bo jest parę w życiu dobrych chwil...


Moja wizytowka i sygnaturka

Szopler

Cytat: RAD-Poland w 30 Sierpień 2008, 20:50
...projekt ponoć zoptymalizowany, ale i tak mniej wygrzewa CPU niż PrimeGrid...

Fakt, Prime nieźle wieszał kompy. Musiałem zmniejszać taktowanie...

RAD-Poland

#14
Cytat<duration_correction_factor>1.168635</duration_correction_factor>
prawidłowa wartość powina oscylować 0,8 ...1... 1,2 - czyli miałeś prawidłową
problem jest po stronie projektu - nieprzewidywalność długości próbki, wyjaśnił to TJM kilka postów wyżej

CytatSwoja droga rzuciles nam tutaj sporo teorii. Skad taka wiedza? (pytam tylko z ciekawosci).
- pięty rok w tym "interesie"   ;)  (tzn w BOINC - od 7 Jul 2004, wcześniej inne platformy ...)
- bardzo dużo wiedzy jest w naszej wiki na stronie głównej zespołu - chłopaki wykonali kawał dobrej roboty
- problemy powtarzają się od czasu do czasu,
(pamiętam podobny problem "rozgryzany" przez Bober'a poprzez modyfikację parametrów długów długoterminowych projektów (ale to inny temat)

CytatNie zawsze prawda jest ze projekt nie moze byc wstrzymany jesli chcemy sciagnac probki. Wielokrotnie sciaga, mimo ze jest wstrzymany. Dziala choc nie powinien :P. Tylko taka drobna uwaga :).
- zdarzało się to przy starych Managerach serii 4.x.x, (czasami była to zaleta)
- od wersji 5.10.x nie spotkałem się z tym problemem (jeśli tak miewasz jest to poważny błąd - prawdopodobnie wart zgłoszenia do projektu BOINC Alpha Test (testuje się tam właśnie BOINC-owe managery, wymagany english nieco lepszy od mojego :()

CytatJeszcze raz dzieki za cenne porady RAD :).
dzięki - staram się jak mogę  :)

   
WCG:
PG:         YOYO:

     

Troll81

muszę sprawdzić jak to u mnie zadzaiła.

Bober

qrcze właśnie mi nie chce pobrać więcej mimo zmiany rdcf, po prostu requestuje 0  >:(

Mori

Ano, też tak miałem na swoim A64 i dlatego olałem już Yoyo.

RAD-Poland

Cytat: Bober w 09 Wrzesień 2008, 23:19
qrcze właśnie mi nie chce pobrać więcej mimo zmiany rdcf, po prostu requestuje 0  >:(

trudno powiedzieć, może macie za duży Average turnaround time np u Bober'a wynosi 5.97 days

odłączyć projekt w managerze i ponownie podłączyć + modyfikacja dcf
zawsze można spróbować podłączyć się w nowym managerze

chwilowo brak innych pomysłów  :(

   
WCG:
PG:         YOYO: