RNA world

Zaczęty przez Troll81, 05 Styczeń 2010, 10:32

Pantarhei

Teraz (19 stycznia) dostałem zadanie long na 542 h z Deadline do 8 lutego. Nam stary procesor ale bez przesady (C2D 2,13 Ghz)
W związku z powyższym, wnoszę o przyznanie mi renty inwalidzkiej drugiej grupy.

Szopler

Mam 4 longi na i7 920:
25 / 33% po 3 dobach liczenia, brak checkpointa :deadman:

Ufol

Pojawiały się kiedyś krótkie, tj. kilku – kilkunasto godzinne,  zadania wymagające mało pamięci, poniżej sto mega, lecz ostatnio ich nie posyłają. Czy te bydlaki, szacowane na pół tysiąca godzin, naprawdę tak długo trwają?

Szopler

Jeszcze niedawno posyłali shorty - kilkanaście policzyłem... a co do longów to:
Jeden LONG przeliczony = około 380 tysięcy sekund :). Oczywiście bez checkpointa. Lecą jeszcze trzy ale są na 40% dopiero.

Ufol

Zatem sytuacja wygląda podobnie, jak w przypadku krótkich, tzn. czas mocno przeszacowany. Zapowiadali dziesięć godzin a przeliczało się w ciągu dwóch. Braku zapisu danych pojąć nie potrafię. Odrzuca to wielu liczydłowych, dajmy na to mielimy cztery doby, mała awaria zasilania i sru, że do łbów taka opcja im przyjść nie może, to dopiero zagadka.

stiven

Brak checkpointa to dla mnie dyskwalifikacja projektu. Szczególnie przy tak długich próbkach. Nawet awaria zasilania nie jest potrzeba aby liczyć od nowa. Wystarczy całkowicie planowany restart komputera albo przełączenie się przez managera na inną próbkę o wysokim priorytecie.

Bezprym

Ja kiedyś liczyłem RNA na 6 rdzeniach i po około 10 godzinach wszystkie próbki same z siebie zaczęły się liczyć od zera.
Nie potrzeba było restartu komputera, awarii zasilania ani żadnych innych problemów. Po prostu same z siebie się wyzerowały.

Wywaliłem je i od tego czasu RNA dla mnie nie istnieje... a szkoda, bo obszar prac projektu jest bardzo ciekawy.
Cóż z tego, skoro nie szanuje czasu pracy mojego procesora.

Pantarhei

Jakieś to dziwne trochę. Czy dodanie opcji zapisywania pracy to trudna dla programisty rzecz? Przecież istotą BOINC jest to żeby projekty były przyjazne dla zwykłych komputerów.
W związku z powyższym, wnoszę o przyznanie mi renty inwalidzkiej drugiej grupy.

Bezprym

W FightMalaria też nie ma checkpointów, ale wielkim problemem to nie jest, bo próbki liczą się zwykle 10-12 minut.

A RNA... jacyś ochotnicy do liczenia zawsze się znajdują. Może prowadzącym projekt ta liczba wystarcza i nie zależy im by przyciągnąć więcej liczydłowych  :-[

Szopler

[smg id=9842 type=preview align=center caption="Próbki LONG w RNA@Home"]

MarcinB

Znalazłem jedną dyskusje na forum projektu która może coś wyjaśniać RNA WORLD :
http://www.rechenkraft.net/phpBB/viewtopic.php?f=75&t=12702
I ogólnie z tego co rozumie boryka się ze sporymi problemami pieniężnymi. Nie ma też za dobrych programistów..

Szopler

Cóż skoro admini projektu nie mogą to będziemy sobie radzić własnymi metodami...
Stawiamy na VirtualBoxie maszynkę wirtualną z ulubionym systemem operacyjnym i boincem podpiętym do RNA@Home.

Na początek *.bat który robi co godzinę snapshot maszyny wirtualnej (każdy to około 200MB miejsca na dysku, skasować stare można dopiero po zatrzymaniu maszyny. Przed zatrzymaniem dobrze zrobić manualnie Snapshot z menu i dopiero zamykać system):
@ECHO OFF
:a
ECHO Zrzut RNA_Machine
time /t
vboxmanage snapshot RNA_Machine take Zrzucik_ --pause
timeout /t 3600 /nobreak
goto a


Dobrze jest dodać do PATH ścieżkę gdzie mamy zainstalowany virtualbox lub w baciku powyżej podać przed "vboxmanage".

Przed ponownym uruchomieniem maszynki należy przywrócić ostatni snap i dopiero odpalać... Inaczej WU zacznie liczyć od zera!

sknd

brawo  :parrrty:

Argento

Nadal niestabilne WU. Dzisiaj dostałem kilka sztuk. Średnia czasu pracy 1000h :). Po kilku sekundach liczenia pojawiał się błąd. Kolejne pobranie WU i ponownie błąd w liczeniu...


--
Pozdrawiam
Z poważaniem
Argento

MarcinB

ja mam 2000h i czas rośnie.. XD

Argento

Z czystej ciekawości. Jak punktuje RNA?


--
Pozdrawiam
Z poważaniem
Argento

Szopler

Z jednego długiego (~700k sec) WU wychodzi około 194,86 cred/h.

Argento

Thnx.

Cytat: Szopler w 21 Marzec 2013, 09:16
Z jednego długiego (~700k sec)...

Długiego... ;). U mnie jest długi 8.380.800 sekund (97 dni)!


--
Pozdrawiam
Z poważaniem
Argento

Szopler

Dobrze, że nie taki na 147 dni... bo taki też widziałem (o ile pamiętam - RNA konia).
PS.
http://www.rnaworld.de/rnaworld/workunit.php?wuid=6056023

sknd

dziwna sprawa - skapnąwszy się że w RNA nie ma checkpointów, wyłaczyłem boinca, potem znów go właczyłem, czas WU się wyzerował, ale pasek postepu spadł z ~5% do ~2.9%... czyżby jednak jakieś checkpointowanie mieli? (linux64)

PDH

Cytat: sknd w 01 Kwiecień 2013, 00:23
czyżby jednak jakieś checkpointowanie mieli?

Oby tak było, dołączyłem do projektu dwa dni temu i nie zwróciłem uwagi, że próbki liczą się tygodniami %) Deadline miesięczny a pokazuje, że próbka będzie liczyła się 3 miesiące...
Chyba zrobię reset i sprawdzę czy zapisuje checkpoint -  lepiej teraz przy 4% niż przy 90% XD

Szopler

W zasadzie nie mają. Jak macie BT to można włączyć kolumnę która pokazuje kiedy był ostatni i ile było checkpointów.
[Extra]/[Ustawienia BoincTasks]/[Zadania]/[Punkt kontrolny]

Telefax

Teraz liczyłem próbkę (10 dniuf i 10 godzinuf) i checkpointów nie ma!
BoincTask pokazuje niby, że jest, ale z 6-ciu próbkach pokazywał mi na dwóch --> 1 (jeden) checkpoint ok. 10-15min. wcześniej niż aktualny czas liczenia.
I pamiętaj, że jak skończy liczyć to pokaże Ci 100% przetworzenia, ale zakończy liczenie nawet po 2,3 dniach od osiągnięcia 100%.
W tej chwili mam zadanie - czas przetwarzania ponad 11dni i 54%.
Aby dostać punkty to musi zadanie ozstać przeliczone przed dwóch użytkowników... a to trochę trwa


Najlepiej wyłączyć sobie automatyczne aktualizacje systemu, bo jak ci zresetuje system to dópa blada :)

stiven

W ten sposób sami sobie odstraszają liczydłowych. Szybko zniechęcą się wszyscy, którzy chcieli się podzielić tylko częścią mocy obliczeniowej i to nie 24/7. Tak można i rok liczyć i nie odesłać prawidłowego wyniku. Jestem za tym aby checkpointy były nawet za cenę obniżenia nieco wydajności. A już ideałem byłby checkbox w preferencjach projektu [] chcę liczyć z checkpointem [] chcę liczyć bez checkpointa (x% szybciej ale możesz utracić całość pracy). Dwie aplikacje i wówczas też bym coś policzył. Jak widzę czasy przetwarzania rzędu sumarycznego uptime "zwykłego" komputera przez pół roku i brak checkpointa to się zastanawiam na jakich pasjonatów liczą twórcy projektu.

:respect: dla wszystkich co próbują. 

sknd

na ja już odpuściłem, po tym jak wczoraj policzyłem dobrych parę godzin, potem na próbę wyłaczyłem boinca i znów spadło do ~2.9% (pewnie to znaczy że zaczynał od zera, tylko jakiś ichni błąd). nie mogę sobie pozwolić na trzymanie kompa włączonego non-stop przez dwa tygodnie  :no:

Szopler

I dlatego ja liczę RNA na maszynie wirtualnej i co 3h harmonogram zadań robi mi zrzut stanu maszyny dzięki czemu mogę  przywrócić jak mi się komp zawiesi lub prąd padnie.
Szczególnie, że mam teraz zadanie na ponad 120 dni ;).

AL

Szopler - przydałoby się, gdybyś zrobił przewodnik krok po kroku dla nieco mniej wtajemniczonych.

Szopler

Ale jaki przewodnik...
Instalacja Debiana na maszynie wirtualnej?
Instalacja BOINC na Debianie?
Dodanie zadania do harmonogramu?
Przecie to podstawy są ;)

Troll81

NIe dla wszystkich :D

adams

Ostatnio zobaczyłem, że ktoś dostał 150 pkt w statystyce. Czy to znaczy, że wróciły małe próbki ?


Szopler

#70
Na stronie głównej projektu pojawił się ciekawy news:
Checkpointing coming up!
Presumably next wednesday we will install the new checkpointing system. So please do not be surprised if there is a system outage.
Old WUs should be processed as usual - so do not worry about your long-runners. If you like to use the checkpointing system, you will have to install VirtualBox.
Of course, we will first send out WUs to the beta testers.


Oznacza to tylko tyle (i aż tyle), że starają się wdrożyć w skali całego projektu sposób checkpoint-owania oparty o snapshot-y stanu maszyny wirtualnej...
Nawet im ten pomysł podsuwałem jakiś czas temu, ale usłyszałem wtedy jęki że nie ma komu ;)
Czyli projekt będzie w pewnym sensie działał jak LHC2 (Test4Theory) lub Climate@Home.

Update 1:
Są próbki Beta!
Zalecany Virtual Box 4.2.16 (4.2.18 zbugowany)
BOINC w wersji 7.x.y
Przynajmniej 6GB RAM (maszyna wirtualna ma ustawione 4GB)
+ odpowiednie ustawienia na stronie projektu (tak dla testowych app + zaptaszkowanie tylko VBox)

Update 2:
Od godziny się liczyło - właśnie wstrzymałem... Maszyna wirtualna przeszła w Powered off / snapshot jeden jest... odpalam ponownie i zobaczymy :D

Update 3:
Liczy... progress bar przeskoczył do przodu. Wygląda dobrze, a okaże się ostatecznie za jakieś 10h.

adams

Po pierwszym checkpoincie pokazał mi 100% wykonania, więc nic nie wiem jaki jest postęp. Początkowo pokazywał czas wykonania na około 800 godz. i termin 8.10.2013 r czyli 3 tygodnie czyli <600 godzin. Jeśli internauta spędza przy komputerze 4godz/dzień to czas potrzebny do obliczeń to około 1/2 roku. Jak ktoś kto uprawia naukę tego nie rozumie ?! :wacko:


Szopler

#72
Bo to projekt dla maniaków jak ja ;)
Mam aktualnie WU które niby powinno się liczyć 2 tygodnie a jedzie już 29 dobę...

Policzyło się po upływie: 2,465,084.16 sekund.

Kolejne wieści z projektu:

Thanks to the good support by our helpful Betatester, here are some preliminary results from the cmsearch VirtualBox Betatest last week:

The good news first: checkpointing is working with the VM, although we may need to find out how to change the frequency of snapshots.

Automatic deadline extension is also working, although we didn't need it for the Betatest I could see trickle messages coming in on the server.

On Windows systems the maximum path length of 256 characters is reached due to long tasknames.
The client uses the taskname to create the VM in a subfolder of the slot directory using the taskname as folder and filename thus double the character usage.
We currently circumvent this by shortening the taskname as much as possible.

Under some unknown circumstances the vboxwrapper reports the exit status 194 when it can't clean the VM subfolder after the VM shuts down normally.
The results are intact and uploaded to the server so I manually mark the result a success. We try to find a better solution.

Running more than one VM on a host with limited RAM may lead to sluggish behavior for the user.
The Client shouldn't start a VM task if not enough RAM is available, this will be investigated with the BOINC developers.

VirtualBox 4.2.18 has a problem when recovering from a snapshot and the task will fail.
This is investigated by BOINC developers as T4T and Climate@home have the same issue.
I would encourage all Betatesters to install 4.2.16 if possible or deselect the cmsearch VM app in project preferences.

Users that have installed BOINC as a Service (Windows only) also have to stop participating in the Betatest or upgrade the BOINC Client to 7.2.11 (unstable developer version) to see if this issue is fixed.

Credit is granted based on used CPU time of the vboxwrapper not the used CPU time of the VM (that's why it is so low), this is under investigation.

Lack of RAM is also an ongoing issue as I try to modify the VM to detect a high memory usage by cmsearch that is reported back to the server so we can send the task to a computer with a larger amount of RAM.
When this is solved we will lower the 4GB RAM requirement and also provide 32bit VM's.


Most of this will be discussed at the BOINC workshop in Grenoble. The cmsearch VM application will stay Beta but I may convert some production tasks from XXL to VM to test our backend processing.

The remaining cmsearch XXL tasks are phased out gradually.
All workunits that don't have at least one successful result will not be resend but wait for conversion to cmsearch VM.
The workunits that have a successful result will be resend to computers that have a high "always on" probability.

adams

Nareszcie dostałem sensowną próbkę na 60 godzin z terminem do 3 listopada. Czyżby zmądrzeli ?


Szopler

Nie...
Ale wprowadzili checkpointy na bazie VirtualBox'a. Tylko WU jakoś dziwnie mało teraz.

adams

Tzn że szykuje się liczenie na 600 godzin ?


Szopler

Tego nie można powiedzieć... Są wu na 3 dni i na 147 (najdłuższe jakie widziałem). W tej chwili trafiają się stare WU bez checkpointów i nowe VBox, ale ogólnie jest ich mało i ciężko coś złapać.

adams

#77
Zobaczymy, ja mam na virtual boxa oczywiście. Na inne bym nie spojrzał. Musiałbym mieć jakiś specjalizowany komp jednoprocesorowy co by całą dobę pracował i mało jadł prądu.
A da się żeby jednocześnie chodził RNA T4T jednocześnie ?


Szopler

Jadne - każdy projekt odpala swoją VM.
Da się jednocześnie RNA, T4T i Climate@Home ;)

adams

Próbka mi się wysypała po 3 godzinach. Ale dziś znowu sypnęło (dostałem 2 i od razu 1 wywaliłem). I znowu absurdalny czas : jedna ponad 3000h druga 1200, i tą zostawiłem. Zobaczymy co wyjdzie, ale pewnie się wysypie. Czas 2 tygodnie - jaka może być wiarygodność ludzi, którzy nawet nie potrafią sensownie oszacować czasu obliczeń !?