MilkyWay@Home - Błąd przetwarzania przy OpenCL_amd_ati na HD6990

Zaczęty przez LQG, 27 Kwiecień 2013, 22:01

LQG

Żadne WU nie kończy się poprawnie, każde ma status "Błąd przetwarzania" po 30-40 sekundach obliczania. Instalowałem Catalysty od 12.8 przez bety 13 do 13.4 oficjalnych a kończąc na najnowszych 13.5beta2. BOINC od 7.0.28 do 7.0.64 w różnych kombinacjach ze sterownikami. Postawiłem świeżutką Win8 i również to samo... Brakuje mi koncepcji i bezradnie jedynie mogę patrzeć jak 1276.88 GFLOPS (Double-precision) marnuje się w aktualnym wyścigu. Aha oczywiście pod OCCT wszytko pięknie bez jakichkolwiek artefaktów... Z postów na zagranicznych forach też nic konstruktywnego nie wynika. Aktualna konfiguracja to BOINC 7.0.64 x64 + amd_catalyst_13.5_beta2. Macie jakieś pomysły jak rozwiązać ten problem?

Szopler

1) DriverSwepper i totalne wyrzucenie sterowników AMD z systemu...
2) Reset
3) Zainstalować ponownie stabilne (nie beta) sterowniki bez SDK (opcja zaawansowane)
4) Z archiwum AMD pobrać SDK 2.7 i zainstalować
5) Dać znać czy działa...

LQG

Dzięki za sugestie, już je wdrażam. Dostępne jest SDK 2.8, pobierać czy jednak 2.7 trzeba?

Szopler

Nie wiem czy to zadziała w Milce, ale Collatz na 2.8 nie chce się liczyć - próbki się wysypują niemal od razu po starcie...
http://developer.amd.com/tools/heterogeneous-computing/amd-accelerated-parallel-processing-app-sdk/downloads/download-archive/

LQG

Wiele restartów za mną... Niestety wszelkie kombinacje sterowników z SDK nie zmieniają sytuacji - w każdej konfiguracji występuje "Błąd przetwarzania". Być może karta jest uszkodzona? Albo MW@H ma problem z dualną kartą. Ciekawe czy ktoś z B@P ma HD6990 i poprawnie liczy WU dla MW@H? WU z Einstein@Home operują na SP i liczą się idealnie więc pewnie na ten odcinek rzucę jej moc, zresztą o większym znaczeniu dla mnie. W każdym razie jak to się mówi kolegom z wyścigu MW@H trochę się upiekło bo bym podgonił ich jeszcze do końca kwietnia (chyba że mnie olśni i uda się wyeliminować "Błąd przetwarzania" to tak będzie) :)

krzyszp

A możesz sprawdzić, czy POEM się wysypuje (zwłaszcza przy kilku próbkach naraz)? To dobry test dla DP...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

LQG

Założę później HD6990 do innej maszyny i sprawdzę POEMa.

ryszard.korczyk

Jeszcze pytanie, jaki masz procesor? ix-3xxx mają grafikę z OpenCL, jeśli instalowałeś drivery do tej integry w tych prockach, to instaluje się poenCL intela, który skutecznie życie utrudnia boincowcom.

LQG

Faktycznie mam w procku HD4000, działajace na najnowszych sterach. Aczkolwiek Radkowi HD7850 zupełnie to nie przeszkadza. Tylko na nim jest jedynie 110GFlops DP a na HD6990 ponad 12x więcej :) Ale może AMD Dual Graphics ma problem z OpenCL Intela, za moment to sprawdzę ;)

Konkluzje:
1. HD6990 wsadzone do innej maszyny - Milka dalej raportuje "Błąd przetwarzania" czyli Computation Error :(
2. POEM@H nie ma na ten moment WU dla ATI :(
3. Sterowniki HD4000 wraz z jego OpenCL wyrzucone, Milka dalej nie reaguje pozytywnie :(
4. Liczą się 4WU dla E@H ale to jest SP, myślę że rezultat będzie prawidłowy :)

Kolejne wnioski:
WU GPUCrystal z POEM@H obliczone poprawnie (nie wiem tylko czy wymaga DP czy wystarczy SP)
WU BRPS 1.34 (opencl-ati) SP z E@H liczą się poprawnie (4sztuki na raz, po 2 na GPU) :)
Chyba problem "Błąd przetwarzania" WU z Milkyway@H potrafią rozwiązać tylko autorzy projektu :(

Kret_polny

Miałem podobny problem z HD5870. Udało mi się go dzisiaj rozwiązać. Wszystko działa ok na Win 7 64bit, BM 7.0.64, Catalystach 13.4 i AMD APP SDK 2.7 64b( na 2.8 BM pozostaje cały czas w stanie "Łączę z localhost" i nic się nie dzieje).

Przepis na Win 7 64b( zakładam, że ścieżki instalacji Windows i aplikacji AMD są domyślne):
1. Wyłącz BM.
2. Jeśli masz zainstalowane APP SDK 2.8, to uruchom instalkę jakiś Catalystów bądź AMD APP SDK, wybierz deinstalację.
3. Następnie wybierz "Niestandardowe" i zaznacz wszystko zaczynające się na AMD APP... i odinstaluj
4. Zainstaluj APP SDK 2.7 64bit
5. Skopiuj wszystkie pliki z:
C:\Program Files (x86)\AMD APP\bin\x86_64
do katalogu
C:\Windows\System32

oraz
C:\Program Files (x86)\AMD APP\bin\x86
do katalogu
C:\Windows\SysWOW64

6. Odpal BM. Liczenie na GPU powinno ruszyć bez restartu kompa.

Być może to rozwiąże problem.

PS. DriverSweeper jest dosyć starą aplikacją, nowszą jest Driver Fusion:
http://treexy.com/products/driver-fusion#free-features
niestety po w logach po analizie widzę, że ani DriverSweeper ani Driver Fusion nie usuwają plików związanych z AMD APP. :(

LQG

Do usuwania wszelkich sterowników AMD używam natywnego narzędzia AMD http://sites.amd.com/us/game/downloads/Pages/catalyst-uninstall-utility.aspx . Na wszystkich maszynach na których testowałem HD6990 karty 1układowe działają bez problemu np. HD7850. Spróbuje poprzenosić te pliki i zobaczymy co będzie.

EDU Enthusiast

sprawdz jeszcze czy karta nie dostanie artefaktow - jak mialem 6990 w profilu OC to jak dostawala powyzej 100'C temps to errorowaly mi taski tez.

LQG

Czyli sugerujesz że może być uwalona? Ustawienia referencyjne, bez OC, temperatura nie przekracza 80°C.  Pietnaście minut testu PowerSupply z OCCT też przechodzi bez artefaktów ale może powinienem ją katować z godzinę przynajmniej. Generalnie wywala wszystkie bez wyjątku, wymagające DP WU MilkyWay@H, przez kilkanaście dni widziałem też ComputationError dla 1 WU z Einstein@H. GPUCrystal z POEM zmielała poprawnie ale nie wiem czy to DP.

EDU Enthusiast

Nie koniecznie - raczej nie.
Sproboj catalysty jeszcze 12.8-9 i 13.1 pamietam ze byly jeszcze jakies problemy jak wprowadzili updates do GCN na 7000 series. Einsteina nie chcialo mi wogole robic jak pamietam ale milka chodzila ladnie.

LQG

Cytat: LQG w 27 Kwiecień 2013, 22:01
Instalowałem Catalysty od 12.8 przez bety 13 do 13.4 oficjalnych a kończąc na najnowszych 13.5beta2. BOINC od 7.0.28 do 7.0.64 w różnych kombinacjach ze sterownikami. Postawiłem świeżutką Win8 i również to samo...

EDU Enthusiast

no tak nie moze byc sprawdz biosa jakiego masz - moze byl edytowany?

LQG

Nie ma takiej opcji, karta referent, czysty stock:) Zaczynam mieć podejrzenie że karta jest jednak uwalona chociaż oprócz 1 WU Einstein@H kilkadziesiąt przemielała bez problemu a OCCT przez 15 minut pięknie zapierdzielał ;)

Tutaj watęk http://milkyway.cs.rpi.edu/milkyway/forum_thread.php?id=3216 w mateczniku ale też na razie nic nie wydumali... :(

EDU Enthusiast

Najlatwiej sprawdzic czy karta dziala w grach ktore supportuja crossfire poscic benchmarka na kilka h i zobaczyc co sie stanie.
Gdybysmy sie jakos zgrali to moglibysmi razem na to popatrzec przez teamviewera.

*Na milce kilka dni temu bez problemu liczylem z 6970 i 7970 ~

LQG

Ja też mielam na okrągło na m.in. HD7870XT, HD4870, HD7850. Na żadnej maszynie nie ma problemów, dopiero po włożeniu HD6990 wypierdziela "Błąd przetwarzania" :) Jednak zrobię jej stres OCCT parogodzinnym  ;D Masz rację, tutaj potrzeba testu Crossfire... Możesz coś polecić zautomatyzowanego?

EDU Enthusiast

msi afterburn czy jakos tak sie nazywal dosc niezly soft. Pamietaj by miec odpalony CF musisz miec go wlaczonego pod catalystami + miec uruchomiona app w fullscreen mode. Te testy nie sa super stresujace ale na kilka h powinny nagrzac gpu.

BOINC@POLAND[HA$]

mi niestety tez milke wywala po 40sek liczenia na 2x hd5870 w crossie
mam ostatnie sterowniki

Wersja pakietu sterowników 12.104-130328a-155980C-ATI
Wersja programu Catalyst   13.4
Dostawca   Advanced Micro Devices, Inc.
Wersja sterownika 2D   8.01.01.1295
Ścieżka pliku sterownika 2D   /REGISTRY/MACHINE/SYSTEM/ControlSet001/Control/CLASS/{4D36E968-E325-11CE-BFC1-08002BE10318}/0006
Wersja biblioteki Direct3D   9.14.10.0969
OpenGL - wersja   6.14.10.12217
Wersja programu Catalyst Control Center   2013.0328.2218.38225


i ostatniego BM 7,0,64  system win 7 64bit

myslalem ze trochę podgonie a tu lipa :(

LQG

Masz "Błąd przetwarzania"? Czy inny komunikat? Wydaje mi się że karty powinny być rozłączone z Crossfire.