GPU w Proth Prime Search (Sieve)

Zaczęty przez _Aleksander_, 27 Sierpień 2010, 10:09

_Aleksander_

Pojawiła się kilka dni temu na stronie ustawień projektów Primegrid opcja wykorzystania GPU dla projektu PPS Sieve.

Proth Prime Search (Sieve)
Supported platforms:

   * Windows: 32bit (+CUDA23), 64bit
   * Linux: 32bit (+CUDA23), 64bit (+CUDA23)
   * Mac: 32bit (+CUDA31), 64bit (+CUDA31)

Projekt WUProp@home nie potrafi jeszcze kolekcjonować danych o GPU.
Otworzylem podobny watek na PG forum i postaram sie przekopiowywac rezultaty tutaj.

Card type, Speed (secs), Speed (minutes), OS
===================================

FERMI
Nvidia GTX 460 403s 6.7m Win7 64-bit


GTX, GTS, & GT 2XX series
Nvidia GTX 285 847s 14.1m Darwin
Nvidia GTX 280 1,055s 17.6m Vista HP 64-bit
Nvidia GTX 275 869s 14.5m XP Pro 64-bit
Nvidia GTX 260 (216) 1,033s 17.2m Vista ULT 64-bit
Nvidia GTX 260 (192) 1,346s 22.4m Win7 64-bit
Nvidia GTS 250 1,282s 21.4m Win7 HP 64-bit
Nvidia GTX 260M 2,083s 34.7m Win7 HP 64-bit
Nvidia GT 240 2,150s 35.8m Win7 HP 64-bit
Nvidia GT 230 2,404s 40.1m Win7 HP 64-bit
Nvidia GT 220 4,354s 72.6m XP Pro 32-bit

GTS & GT 1XX series
Nvidia GT 120 6,472s 107.9m Darwin

9000 series
Nvidia 9800 GX2 1,547s 25.8m XP Pro 32-bit
Nvidia 9800 GTX+ 1,337s 22.3m Vista ULT 64-bit
Nvidia 9800 GT 1,554s 25.9m Win7 64-bit
Nvidia 9600 GSO 1,741s 29.0m XP Pro 32-bit
Nvidia 9600 GSO (512) 3,880s 64.7m Win7 ULT 64-bit
Nvidia 9500 GT 6,621s 110.4m Vista HP 32-bit
Nvidia 9400 GT (32 shader) 6,766s 112.8m Win7 Ent 64-bit

8000 series
Nvidia 8800 GTS (512) 1,305s 21.8m Win7 ULT 64-bit
Nvidia 8800 GT 1,544s 25.7m XP Pro 64-bit
Nvidia 8800 GTX 1,738s 29.0m Vista HP 64-bit
Nvidia 8800 GS 1,993s 33.2m XP Pro 32-bit
Nvidia 8800 GTS (340) 2,254s 37.6m Vista HP 32-bit
Nvidia 8600 GTS 6,347s 105.8m Win7 Ent 64-bit
Nvidia 8700M GT 7,136s 118.9m Vista ULT 64-bit
Nvidia 8500 GT 19,610s 326.8m XP Pro 32-bit
Nvidia 8400M GS 2,2865s 381.1m Vista HP 32-bit

Quadro
Quadro FX 4800 1,311s 21.9m Darwin
Quadro FX 3800 1,334s 22.2m Server 2008 64-bit
Quadro FX 880M 5,154s 85.9m Win7 ULT 64-bit
Quadro FX 580 8,196s 136.6m XP Pro 64-bit
Quadro FX 1700 9,821s 163.7m XP Pro 64-bit

Genn

Aplikacja która działa na kartach ATI (OpenCL) jest w fazie testów. http://www.primegrid.com/forum_thread.php?id=2683
Niestety autor aplikacji sam karty ATI nie posiada, więc każda pomoc w testach się liczy.



X X X

To prawda, dostałem taki wynalazek, ale jeszcze nie przeczytałem zaległych e-maili od Johna z weekendu, więc dopiero dziś będę uruchamiać nowalijki.

Co do PSP LLR, to nie ma żadnych problemów w liczeniu na AMD, nie to co Woodall. W wyścigu chyba nie wystartuję, bo zagapiłem się i ledwie 5 zadań brakuje mi do sreberka, a nie mam powodu liczyć więcej.

@Genn jak liczenie SoB? Policzyłbyś trochę a nie tylko "ręczne" sieve, bo mam kilkanaście zadań do walidacji i nic się od miesiąca nie dzieje.

Genn

Cytat: [GPU Force] Robert 7NBI w 21 Wrzesień 2010, 15:57
@Genn jak liczenie SoB? Policzyłbyś trochę a nie tylko "ręczne" sieve, bo mam kilkanaście zadań do walidacji i nic się od miesiąca nie dzieje.
Jakieś 2 były, ale teraz wszystkie siły idą na PSP Sieve i dopiero jak się skończy będą kolejne SoBy.



_Aleksander_

Dziś zwróciłem uwagę, że zmienił się numer wersji aplikacji Proth Prime Search (Sieve) na CUDA z 1.29 na 1.30.
Nie byłoby  w tym nic ciekawego, gdyby nie fakt, że szybkość wzrosła prawie czterokrotnie!!!

Mój zabawkowy GT 240 liczył do tej pory pojedynczy WU w czasie 2100 sekund, a obecnie 550 i to wszystko za identyczne 134,87pkt.
Na wydajniejszych kartach to pewnie będą już pojedyncze minuty.....

lolek

ile to wykorzystuje procke pod windowsem? bo pod linuksem 0,29%, wszystko muli ale to jedyny projekt który mi działa na GPU  :D

_Aleksander_


lolek

#7
na mojej padlinie 9500gt bez OC liczy się ~40min pod linuksem x64, mulenie występuje tylko sporadycznie a obciążenie procka wacha sie od 35% do 5%, wraz z postępem liczenia spada obciążenie procka.
EDIT
Na win7 x64 jest zdecydowanie lepiej, prawie nie obciąża procka 1-2% (wartość realna) i po OC liczy się 25 min, powinno być więcej punktów niż przy CC a w statach PG lepiej wygląda   :D

Filavandrel

GTX260 liczy 5 min 2s pokazuje 0.61 CPU  |-? a proc to I7 920@4GHZ w dodatku ładnie muli system  XD

I7 920@4GHz, HD5970, 6 Gb RAM, Microsoft Windows 7 Professional x64 Edition

lolek

Cytat: Filavandrel w 23 Październik 2010, 17:50
GTX260 liczy 5 min 2s pokazuje 0.61 CPU  |-? a proc to I7 920@4GHZ w dodatku ładnie muli system  XD

A jaki system i stery. U mnie menedżer BOINC pokazuje 0,29 CPU, ale realnie prawie nie obciąza procka, a na kompie da się oglądać filmy w flashu bez żadnych problemów  :) Stery 258.96.

mimeq

#10
Przy 3x NFS i 1x Primaboinca (q6600+4MB RAM) moja 8800GTS pokazuje 0,5cpu+1gpu Nvidia - w menadzerze zadan 00 do 01 uzycie CPU (WIN7 x64)
O przyroscie wydajnosci napisze cos jak sie przeliczy 1sze WU bo dopiero zauwazylem watek  :P

--------------------------------
EDIT:

Wyglada na to ze w moim przypadku przyrost wydajnosci jest naprawde spory:

Przed:
Completed and validated    2,347.29    12.64    134.87    Proth Prime Search (Sieve) v1.25 (cuda23)
Completed and validated    2,311.69    11.06    134.87    Proth Prime Search (Sieve) v1.25 (cuda23)
Completed and validated    2,312.54    11.75    134.87    Proth Prime Search (Sieve) v1.25 (cuda23)

Po:
Completed and validated    762.97    7.13    134.87    Proth Prime Search (Sieve) v1.30 (cuda23)

;D ;D ;D


Filavandrel

nom stery mam jakieś przedpotopowe 191.07 :D win 7 64
już zasysam, nowe zobaczymy :) ale jak popatrzę w task menagera to ledwo łyka 1%

I7 920@4GHz, HD5970, 6 Gb RAM, Microsoft Windows 7 Professional x64 Edition

Peciak

no to jako właściciel karty ATI w wyścigu na tą aplikację (chyba grudzień) dostane w skórę  :(

,,Z szanowania wzajemnego wypływa moc wielka w chwilach trudnych."

Filavandrel

no dobra a teraz powiedzcie mi jak ustawić żeby na GPU liczyło PPS sieve a na CPU 321 Siewe... bo na razie skończył mi wszystkie WU 321 liczyć i pobrał PPS tez na CPU

I7 920@4GHz, HD5970, 6 Gb RAM, Microsoft Windows 7 Professional x64 Edition

sesef

Cytat: Piotr R. (Peciak) w 23 Październik 2010, 19:57
no to jako właściciel karty ATI w wyścigu na tą aplikację (chyba grudzień) dostane w skórę  :(

http://primegrid.com/forum_thread.php?id=2683

Don't worry, be happy :)

S6X

Z tym happy to bym nie przesadzał  :(
CytatOpenCL certainly seems limited compared to native algorithms as with CUDA on the NVidia cards. Have you thought much about trying to do the app in ATI's native Brook/CAL?

Yes.

    The Collatz project was able to do their app that way, but I have no idea how difficult it is to work with the ATI cards this way...


Well, I couldn't do it without buying an ATI card, and I don't want to buy an ATI card if it's going to be slower than an nVIDIA card. Catch-22!

Also, the current fastest algorithm on nVIDIA is very linear. ATI needs instruction-level parallelism, and evidently that's not easy to come by. So I'm not sure CAL could do much either. Certainly not sure enough to buy an ATI card.

On the other hand, the vectorizing I did on ATI only gave about a 33% speedup. It might be worth un-vectorizing it and applying the newest algorithm. But ATI/OpenCL is so unpredictable that I'm not inclined to try this soon.
Przypadkiem nie jest że panowie od gpugrid też nie dają sobie rady  :wth:

Peciak


,,Z szanowania wzajemnego wypływa moc wielka w chwilach trudnych."

Can-D

http://www.primegrid.com/results.php?hostid=165821&offset=0&show_names=0&state=3&appid= narazie to wygląda tak -- 5770

sesef

Cytat: S6X w 24 Październik 2010, 13:29
Z tym happy to bym nie przesadzał  :(
CytatOpenCL certainly seems limited compared to native algorithms as with CUDA on the NVidia cards. Have you thought much about trying to do the app in ATI's native Brook/CAL?

Yes.

   The Collatz project was able to do their app that way, but I have no idea how difficult it is to work with the ATI cards this way...


Well, I couldn't do it without buying an ATI card, and I don't want to buy an ATI card if it's going to be slower than an nVIDIA card. Catch-22!

Also, the current fastest algorithm on nVIDIA is very linear. ATI needs instruction-level parallelism, and evidently that's not easy to come by. So I'm not sure CAL could do much either. Certainly not sure enough to buy an ATI card.

On the other hand, the vectorizing I did on ATI only gave about a 33% speedup. It might be worth un-vectorizing it and applying the newest algorithm. But ATI/OpenCL is so unpredictable that I'm not inclined to try this soon.
Przypadkiem nie jest że panowie od gpugrid też nie dają sobie rady  :wth:

Spokojnie można działać. Trzeba tylko ściągnąć stery 10.10 APP (te drugie na liście), albo poszukać starszych z obsługą OpenCL 1.1 (10.8b albo 10.9 nie pamiętam dokładnie). Pliki app_info.xml oraz najnowszą kompilację można znaleźć na forum PG. Jakby nie działało z powodu braku OpenCL.dll to trzeba jeszcze doinstalować SDK z tej strony http://developer.amd.com/gpu/ATIStreamSDK/Pages/default.aspx ale ze sterami 10.10 powinno już działać bez instalacji SDK.

To co zaznaczyłeś na czerwono jest związane, z tym, że możnaby tą aplikacje napisać bezpośrednio w CAL (taki assembler na karty ATI) co dałoby sporą przewagę nad CUDA i OpenCL.

S6X

Brook/CAL jest mało popularny (chyba że się mylę , programistą nie jestem  XP ) przez to bez przyszłości. AMD mocno promuje Opencl ze względu na uniwersalność (działa na AMD/Nvidia gpu). Problem jest taki że trudno napisać program który będzie stabilny na AMD/OpenCL a nie mówię o wydajności.
Pod tym wzgędem AMD jest daleko w tyle względem Nvidi i nie wiem czy nawet SDK 2.3 coś tu zmieni.

sesef

#20
Mogą promować, ale zawsze CAL pozostanie jako niskopoziomowy assembler (tego NV nie dostarcza) i można w tym pisać. Wiadomo bardziej skomplikowane aplikacje trudno napisać ale jak już się to przezwycięży to dopiero widać potęgę ATI. Swego czasu jak było porównywanie z CUDA 1.0 to CAL okazywał się po 8-10x szybszy. Teraz przy CUDA 3.1 już pewnie to się zmniejszyło, ale nadal będzie szybciej jak się dobrze przemyśli program. Jest prosty wybór albo prostota w OpenCL i mniejsza wydajność albo hardcore w CAL i lepsza wydajność.

toms83

Ogólnie jest spory problem z Ati i SDK. Chłopaki z Gpugrida męczą się od ponad roku nad aplikacją dla czerwonych, a dopiero ostatnie kilka miesięcy przyniosło jakiekolwiek efekty inne niż zero. Wielka szkoda, zwłaszcza że tam, gdzie aplikacja wyciska siódme poty z grafy, to ati wiedzie prym.

Peciak

toms83 nic się tu nie chwalisz a tymczasem stworzyłeś niezły poradnik do liczenia na GPU na karcie ATI
http://boinc.pl/forum/viewtopic.php?f=25&t=118
Wielki szacun i to z dwóch powodów
1. Poradnik ma tą zaletę że uruchomiona karta zgodnie z tym poradnikiem działa  :respect:
2. Zechciałeś się podzielić swoją zdobytą wiedzą na ogólnym forum  :respect:  :respect:  :respect:

Moja skromna karta 5850 zadanko trzepie w 336 sekund a tymczasem 1 rdzeń phenoma II 1090T @3,9 w - 4200 sek

,,Z szanowania wzajemnego wypływa moc wielka w chwilach trudnych."

mimeq

#23
Cytat: Piotr R. (Peciak) w 25 Październik 2010, 23:58
toms83 nic się tu nie chwalisz a tymczasem stworzyłeś niezły poradnik do liczenia na GPU na karcie ATI
http://boinc.pl/forum/viewtopic.php?f=25&t=118
Wielki szacun i to z dwóch powodów
1. Poradnik ma tą zaletę że uruchomiona karta zgodnie z tym poradnikiem działa  :respect:
2. Zechciałeś się podzielić swoją zdobytą wiedzą na ogólnym forum  :respect:  :respect:  :respect:

Moja skromna karta 5850 zadanko trzepie w 336 sekund a tymczasem 1 rdzeń phenoma II 1090T @3,9 w - 4200 sek

Ooo dzieki za instrukcje  :respect:
Z niewielkimi trudnosciami udalo mi sie odpalic na lapku i dziala, choc pewnie przez to ze to Mobility (HD5470) szalu predkosci nie ma  XD - zrobie edit jak juz policzy.

********
EDIT:
http://i56.tinypic.com/2q1ct21.jpg



Filavandrel

i tak dalej zamula mimo nowych sterów dla NV (ale liczy na obydwóch GTX jednocześnie czyli 2xWU na GPU :) czas ok 5 min sztuka)
dla zainteresowanych konfig kompa w stopce, inne projekty na GPU na razie nie mają u mnie tego problemu

I7 920@4GHz, HD5970, 6 Gb RAM, Microsoft Windows 7 Professional x64 Edition

Troll81

czy jest sens liczenia tego na nv8200?

czy jest sens liczenia jakiegokolwiek projektu na takiej grafie?

mimeq

Cytat: Troll81 w 28 Październik 2010, 16:15
czy jest sens liczenia tego na nv8200?

czy jest sens liczenia jakiegokolwiek projektu na takiej grafie?

Nie sprawdzisz nie bedziesz wiedzial  XP
Mi teraz na 8800GTS liczy ~12min (wczesniej ~40min)


Peciak

najnowsze stery ati 10.10 oraz teoretycznie niepotrzebne ATI Stream (SDK) 2.2 i zysk na mojej karcie 5850
z 336 sekund do 279 sekund

,,Z szanowania wzajemnego wypływa moc wielka w chwilach trudnych."

Troll81

to 8200 jest 20 razy wolniejsza....

pszyklejony

#29
Cytat: Troll81 w 28 Październik 2010, 16:15
czy jest sens liczenia tego na nv8200?

czy jest sens liczenia jakiegokolwiek projektu na takiej grafie?

Napewno jest, niech liczy i 6 godzin, masz 135 punktów. Na 8600 liczy 35 minut to, niech będzie 4 razy wolniejsza.

lolek

Cytat: pszyklejony w 28 Październik 2010, 20:00

Napewno jest, niech liczy i 6 godzin, masz 135 punktów. Na 8600 liczy 35 minut to, niech będzie 4 razy wolniejsza.

Pobawa się w OC na tym 8600, na 9500 przy 700mhz na rdzeniu liczy się 25min a to ta sama karta  ;)

pszyklejony

To jest z ddr2, bardzo słabo się kręci.

lolek

U mnie też DDR2 i  pasywne chłodzenie.

pszyklejony

9500 ma dwa razy więcej procesorów strumieniowych, cokolwiek to by miało znaczyć  :D

lolek


Troll81

#35
8600gt - procek G84-300 - proces 80 nm
9500gt - procek G96-300 - proces 65 nm

http://www.benchmark.pl/zestawienie_gpu.html

pszyklejony

Ich jest jak psów, za tym nie trafi  XD

Troll81

próbka collatza prawie 20 godzin sie liczy.......

Troll81

#38
http://boinc.thesonntags.com/collatz/result.php?resultid=58437793

19:54 i 783 credits.....

pszyklejony