Tworzenie projektu... czyli powstanie i ewolucja Enigma@Home

Zaczęty przez TJM, 27 Lipiec 2007, 16:22

TJM

Cytat: buninek w 05 Październik 2008, 11:25
TJM udało mi się uzyskać ok 20% wzrost wydaności na AMD X2 z użyciem
kompilatora gcc 4.3.2 pod x86_64. W stosunku do aplikacji pobranej z
http://tjm.boo.pl/enigma/app/app_test_522.tgz. Nic mi nie wiadomo pod jakie porcesory kompilowana (sse3?).

                          jest     było
hceyz72_0        1820    2260
hceyz72_1        3130    3940


Zapewne dlatego, że w tej paczce jest goła aplikacja bez żadnych optymalizacji, lepiej porównaj swoją z tymi z paczki z exekami - może już nie być tak wesoło. Jeżeli przekopiesz cały temat, znajdziesz na którejś stronie wyniki z testów i dość dobry sposób wykonywania pomiarów - z tego co pamiętam, dla proców AMD chyba exek linuksowy od PIII najlepiej pasował.

Cytat
Troszkę się dziwię, że tak zachwalasz przyspieszenie liczenia na linuksie.
Przeglądając wyniki poszczególnych hostów nie widzę takowych. Mam wrażenie, że są dużo niższe niż pod windowsem i
nie mam tu na uwadze tylko amd, ale również intela. Pokaż mi te hosty linuksowe, które mają tą 40% przewagę nad
windowsowymi. Widocznie 98% liczących jedzie na aplikacji jaką zassa manager boinca.

Amd to już zupełnie inna liga. Jedyny komputer z w miarę dobrymi wynikami to chyba ten
http://www.enigmaathome.net/show_host_detail.php?hostid=7888



To dlatego, że praktycznie nikt nie używa exeków skompilowanych kompilatorem Intela. To nie w samym linuksie tkwi siła, ale właśnie w tym kompilatorze. Same exeki nawet ciężko udostępnić, zauważyłem że nawet statyczne nie chcą śmigać czasami na innych kompach albo generują błędne rezultaty.
Popatrz sobie na wyniki czasowe tego hosta http://www.enigmaathome.net/results.php?hostid=1369 porównaj je z przeciętnymi procami AMD i spróbuj wykminić, jaki zegar ma ten PIII, ciekawe czy zgadniesz.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

buninek

Co do icc i static, to faktycznie są  jakieś problemy. Ważna jest chyba wersja glibc.
Faktycznie pentium III śmiga ładnie. Jaki zegar? Mhm, trudno stwierdzić.
Wiem jedno kernel 2.4 jest bardzo szybki.

TJM

To nie zasługa kernela, wcześniej miałem drugiego PIII na debianie z kernelem 2.6 i był równie szybki. Ten tutaj ma zegar 1.0 GHz i jest to zwykły  PIII, ten drugi to był Tualatin 1.3 podkręcony do 1.4 i wyciągał wyniki o 35% lepsze.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

buninek

#523
Wersja kernela ma spore znaczenie. U mnie przy tym samym konfigu kernela, tych samych flagach kompilacji
róznica dochodzi do 12% np. miedzy 2.6.16 a 2.6.24.
Oczywiście linuks jako taki nie ma żadnej przewagi w prędkości liczenia nad widowsem.
Właśnie zapuściłem ten "exek" pod pentium III z sse2. Już się kończy liczyć pierwsza próbka. Efekt jest jaki był.
Czyli o 20% wolniej.

EDIT:
Poprawka nie o 20% a dużo więcej bo liczyła się aż 2885 (wznowiona od 770s).
Jest ciekawe nrzędzie do robienia statycznych wersji z gotowych dynamicznych.
http://statifier.sourceforge.net/statifier/main.html

TJM

Cytat: buninek w 05 Październik 2008, 12:17
Wersja kernela ma spore znaczenie. U mnie przy tym samym konfigu kernela, tych samych flagach kompilacji

Dziwne, u mnie w ogóle nie ma żadnych różnic, odkąd bawię się exekami enigmy (praktycznie od powstania projektu M4 czyli gdzieś od początku 2006) wypróbowałem co najmniej kilkadziesiąt różnych kerneli i nie stwierdziłem, żeby któryś był szybszy od innych - różnice na poziomie błędu pomiarowego, między  2.4.19-16mdk a 2.6.18-własna kompilacja uśredniona różnica to 0.3% na tym samym sprzęcie, na korzyść tego drugiego. Może to kwestia sprzętu. W każdym razie największe znaczenie dla szybkości projektu ma procesor i odpowiedni dobór aplikacji, drugorzędne pamięć (zmiana np. z SDRAM-PC133 na DDR400 daje +5%) a reszta praktycznie się nie liczy.
Robiąc benchmarki nigdy nie sugeruj się czasem przeliczania zadań bo one same z siebie mają spory rozrzut dochodzący do 10-15% - składa się na to m.in. różnica wynikająca z losowości danych na samym początku zadania - im szybciej trafi na jakiś wysoki score który potem się trzyma długo, tym mniej danych będzie zapisane do checkpointa i do pliku z wynikami = oszczędność czasu procesora. Na dodatek im krócej działa sama aplikacja, tym mniej czasu procesora zjada wrapper, a jego czas też się dolicza do czasu zadania. Sposób wykonywania pomiarów jest gdzieś na poprzednich stronach tematu.

Cytat
Właśnie zapuściłem ten "exek" pod pentium III z sse2. Już się kończy liczyć pierwsza próbka. Efekt jest jaki był.
Czyli o 20% wolniej.

PIII nie ma SSE2, więc chyba zły exek wybrałeś %-)



W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

RAD-Poland

TJM ma dobry pomysł zrobić test na próbce testowej

Cytat: http://www.boincatpoland.org/smf/index.php/topic,1216.msg21515.html#msg21515http://tjm.boo.pl/enigma/eb.rar
pod linuksem wystarczy exek skompilowany ze źródeł z bytereef.org, pliki zawarte w archiwum i polecenie time enigma -R -o results.txt 00trigr.naval 00bigr.naval bench_cipher


robiłem kiedyś kilka testów, u mnie duże znaczenie miała wersja GCC ( 4 miała dużo gorsze wyniki od 3.2)
http://www.boincatpoland.org/smf/index.php/topic,1216.msg25830.html#msg25830

może Twoja kompilacja przekona mnie do liczenia Enigny na AMD  ;)

   
WCG:
PG:         YOYO:

     

buninek

Cytat: RAD-Poland w 05 Październik 2008, 13:46
TJM ma dobry pomysł zrobić test na próbce testowej
Testy zawszy robiłem na tym benchmarku.

TJM

Cytat: RAD-Poland w 05 Październik 2008, 13:46

robiłem kiedyś kilka testów, u mnie duże znaczenie miała wersja GCC ( 4 miała dużo gorsze wyniki od 3.2)
http://www.boincatpoland.org/smf/index.php/topic,1216.msg25830.html#msg25830


To właśnie zastanawiające, pewnie trzeba coś poprzestawiać w opcjach bo nie sądzę, żeby nowszy gcc był gorszy. Ciekawe tylko gdzie dłubać %-)

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

buninek

#528
Ja użyłem
CFLAGS=-Wall -pedantic -funroll-all-loops -fomit-frame-pointer -march=x86-64 -mtune=athlon64 -O3 -pipe

EDIT:
bardzo dobry był gcc 3.3.6, ale od tego czasu sporo się zmieniło



RAD-Poland

#529
test aplikacji projektu Enigma@Home (Linux + Athlon 64 X2 2,0@2,2) - wyniki benchmarku TJM
32 bit enigma TJM (aplikacja podstawowa projektu)
392,94 sek
64 bit enigma Crunch3r
391.72 sek
32 bit enigma TJM (kompilator Intela dla  PIII)
365,07 sek
32 bit enigma TJM (kompilator Intela dla PIV)
360,04 sek
(Linux + Athlon 64 X2 2,0@2,3)
64 bit enigma , gcc-4.2.3-6mnb1 , CFLAGS=-Wall -pedantic -funroll-all-loops -fomit-frame-pointer -march=x86-64 -mtune=athlon64 -O3 -pipe
301.93 sek  (widać efekt przyjmijmy ok 15% + cpu ok 5% OC w stosunku do poprzednich pomiarów)

   
WCG:
PG:         YOYO:

     

buninek

Cytat: TJM w 05 Październik 2008, 12:46
Dziwne, u mnie w ogóle nie ma żadnych różnic, odkąd bawię się exekami enigmy (praktycznie od powstania projektu M4 czyli gdzieś od początku 2006) wypróbowałem co najmniej kilkadziesiąt różnych kerneli i nie stwierdziłem, żeby któryś był szybszy od innych - różnice na poziomie błędu pomiarowego, między  2.4.19-16mdk a 2.6.18-własna kompilacja uśredniona różnica to 0.3% na tym samym sprzęcie, na korzyść tego drugiego.

Co do wersji kernela to trochę przesadziłem. Podałem skrajny przykład. Wersja 2.6.16, której używam ma nałożone różne patche. Pewnie one
pogarszają wydajność. Generalnie najlepsze są vaniliowe wersje.
Może inaczej to ujmę można skroić pod boinca nieznacznie lepszy wydajnościowo kernel, niż taki "zwykły" dystrybucyjny desktopowy.

TJM

Pod BOINCa - całkiem możliwe że da to jakieś efekty. Dla samej enigmy - bardzo wątpię, kod jest za prosty żeby kernel mógł powodować jakieś widoczne przyrosty prędkości.

Zaczynam proces ponownej kalibracji kredytów w projekcie, tak żeby użytkownicy AMD nie byli za bardzo pokrzywdzeni %-) Ma ktoś AMD 64/64x2 pod Windowsem i chwilę wolnego czasu, żeby spisać trochę czasów próbek przy użyciu zwykłej wersji aplikacji a także zrobić BOINCowy benchmark na systemie nieobciążonym niczym, wersją 5.10.45 ?

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

Mori

Cytat: TJM w 05 Październik 2008, 15:44
Zaczynam proces ponownej kalibracji kredytów w projekcie, tak żeby użytkownicy AMD nie byli za bardzo pokrzywdzeni %-) Ma ktoś AMD 64/64x2 pod Windowsem i chwilę wolnego czasu, żeby spisać trochę czasów próbek przy użyciu zwykłej wersji aplikacji a także zrobić BOINCowy benchmark na systemie nieobciążonym niczym, wersją 5.10.45 ?

Jeśli masz ją w wersji portable i nie przeszkadza Ci OC, to ja mam A64 na WinXP xD

Troll81

możesz spojrzeć na moje statystyki

1040321 972356 5 Oct 2008 5:13:52 UTC 5 Oct 2008 14:41:21 UTC Over Success Done 4,784.78 9.02 8.45
1039532 971622 5 Oct 2008 4:33:00 UTC 5 Oct 2008 14:41:21 UTC Over Success Done 4,784.56 9.02 8.45
1038646 970761 5 Oct 2008 3:42:49 UTC 5 Oct 2008 13:15:34 UTC Over Success Done 4,686.83 8.84 8.45
1038118 970233 5 Oct 2008 3:15:43 UTC 5 Oct 2008 12:46:17 UTC Over Success Done 4,857.67 9.16 8.45
1037910 970046 5 Oct 2008 3:11:32 UTC 5 Oct 2008 12:46:17 UTC Over Success Done 8,714.80 16.43 15.14
1036026 968173 5 Oct 2008 0:17:33 UTC 5 Oct 2008 9:20:15 UTC Over Success Done 4,466.45 8.42 8.45
1035929 968077 5 Oct 2008 0:13:22 UTC 5 Oct 2008 10:23:12 UTC Over Success Done 8,631.75 16.28 15.46
1031928 964215 4 Oct 2008 22:48:46 UTC 5 Oct 2008 7:44:43 UTC Over Success Done 4,785.52 9.02 8.45
1031771 964059 4 Oct 2008 22:44:32 UTC 5 Oct 2008 9:11:10 UTC Over Success Done 8,360.05 15.76 15.46
1030830 963128 4 Oct 2008 21:06:55 UTC 5 Oct 2008 6:59:05 UTC Over Success Done 4,909.66 9.26 8.45

Athlon 64 x2 3600 na windzie xp sp2 32bit

RAD-Poland

#534
ściągnąłem kompilator intela (niestety nie wiem z jakimi opcjami kompilowałeś swoje aplikacje) moje wyniki dla (Linux64 + Athlon 64 X2 2,0@2,3) to

373 sek (ICC PIV -O3)
368 sek (ICC core2 -mcpu=core2 -mtune=core2 -xO -funroll-loops -O2)

302 sek (GCC -Wall -pedantic -funroll-all-loops -fomit-frame-pointer -march=x86-64 -mtune=athlon64 -O3 -pipe)
300 sek (GCC -Wall -pedantic -funroll-all-loops -march=x86-64 -mtune=athlon64 -O2 -pipe)

myślę że mógłbyś spróbować skompilować aplikacje za pomącą GCC i opcjami zaproponowanymi przez użytkownika Buninek
przetestujemy i jeżeli potwierdzi się +20% wydajności warto by udostępnić taką optymalkę

20% wydajności "drogą nie chodzi"  ;D

pierwsze testy:
2703,62 sek   8,45 pkt   (32bit-PIV intel TJM)
2250,80 sek   8,45 pkt   (64bit-AMD64 gcc Buninek)



   
WCG:
PG:         YOYO:

     

buninek


TJM

Ciekawe, czy gcc pod windows pozwoli skompilować exek z tymi opcjami - mógłby to być najszybszy exek z dotychczas dostępnych.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

RAD-Poland

#537
ano

EDIT: skasowane - wyniki wprowadzały w błąd




Athlon 64 x2 3800 (2,0@2,3) Linux64
2703,62 sek   8,45 pkt   (32bit-PIV intel TJM)
2250,80 sek   8,45 pkt   (64bit-AMD64 gcc Buninek -O3)
2239,52 sek   8,45 pkt   (64bit-AMD64 gcc Buninek -O2 bez -fomit-frame-pointer)
2278.25 sek   8.45 pkt   (jw - różnice O2 i O3 pomijalne)

3848,54 sek   15,46 pkt   (64bit-AMD64 gcc Buninek -O2 bez -fomit-frame-pointer)

4483.00 sek   18.27 pkt   (64bit-AMD64 gcc Buninek -O2 bez -fomit-frame-pointer)

   
WCG:
PG:         YOYO:

     

Mori

Ej, ale coś u Trolla chyba nie tak... Ja na moim A64 3200+ 2.0@2.3 (no, ale to wasze X2 coś chyba robi - to nie emuluje dwóch rdzeni czy coś? Bo nigdy nie wnikałem)
1027980   960726   4 Oct 2008 19:19:45 UTC   5 Oct 2008 16:28:44 UTC   Over   Success   Done   2,752.33   10.25   8.45
1019628   952540   4 Oct 2008 12:55:07 UTC   5 Oct 2008 13:47:50 UTC   Over   Success   Done   2,702.91   10.07   8.45
1014596   947528   4 Oct 2008 8:47:14 UTC   4 Oct 2008 18:56:34 UTC   Over   Success   Done   2,870.34   10.69   8.45
1014421   947355   4 Oct 2008 8:03:33 UTC   4 Oct 2008 12:55:06 UTC   Over   Success   Done   2,873.86   10.70   8.45
1013301   946249   4 Oct 2008 7:20:19 UTC   4 Oct 2008 11:19:19 UTC   Over   Success   Done   2,922.95   10.89   8.45
1000142   933500   3 Oct 2008 20:36:22 UTC   4 Oct 2008 11:19:19 UTC   Over   Success   Done   2,672.20   9.95   8.45
998281   931787   3 Oct 2008 19:50:15 UTC   4 Oct 2008 9:32:50 UTC   Over   Success   Done   2,706.44   10.08   8.45
993193   927056   3 Oct 2008 14:52:56 UTC   3 Oct 2008 19:12:06 UTC   Over   Success   Done   2,562.25   9.54   8.45

Szczegóły kompa. Win XP SP3

A trzeba dodać, ze ostatnimi czasy wolniej leci, bo siostra lubi pograć w Simsy 2 - i BOINC się łapie na ze 3-5% procka...

A raz było nawet tak:
1016197   949120   4 Oct 2008 9:32:51 UTC   5 Oct 2008 7:09:26 UTC   Over   Success   Done   3,840.11   14.30   18.27

RAD-Poland

#539
sprawdziłem Troll81 wprowadził nas w błąd wyniki które wkleił to Intel(R) Pentium(R) 4 CPU 3.20GHz (ale to też coś nie tak z wynikami nieco słabe ja na taki procesor)

dla AMD Athlon(tm) 64 X2 Dual Core Processor 3600+ ma:

2,525.00   8.45
2,698.75   8.45
4,453.81   15.46
4,543.66   15.46
5,119.06   18.27
5,102.22   18.27

teraz by się zgadzało bo różnice były kosmiczne  ;D

EDIT: ta próbka za 18.27 to wu typu 2
EDIT2: (wyjątkowo szybko ją przeliczyłeś, wyjątkowa próbka, a może restartowałeś Boinc'a czasami wrapper zeruje czas, a korzysta z checkpointa i liczy dalej)

   
WCG:
PG:         YOYO:

     

Mori

Wiem że dwójka, chodziło mi o różnicę między claimed a granted na korzyść granted, co jest unikalne tutaj xP

2.5-2.7k to też nie za szczególnie dla X2 3600+ (nawet bez OC chyba). Na pewno optymalki są? Bo może z nimi zejdziemy kolejne 10% w dół u Trolla? Nie widzę opcji eksportu w BoincView, ale mogę zrobić screena jakiegoś z danymi moimi pełnymi z jakiegoś większego odcinka czasowego, jeśli trzeba.

buninek

sporo amd x2 6000 przelicza te wu w  ok 2300s.
Pewnie nie ocnięte. Jego wyniki są jak najbardziej ok.

1 rdzeń A64 (socket 939) jest  szybszy od 1 rdzenia X2. Zegar w zegar.

Mori

To co oznacza to X2? I czemu proc bez X2 liczy szybciej niż z X2? I co, trafiłem szczęśliwie na to 939 i dlatego boost? Bo procesor się lepiej trzyma, bo ma więcej nóżek i na zakrętach nie wypada? ;)

jurdziol

Pozdrawiam

buninek

AM2 ma o 1 nóżkę więcej bo ma podstawkę z 940 ;D
z ilu korzysta  X2 to nie wiem

Mori

A, czyli dobrze myślałem. To czemu dwa rdzenie (i to szybsze) są wolniejsze od jednego wolniejszego (wg oznaczeń) na S939?

@buninek: a jakbym dolutował do swojego jeszcze parę (i wywiercił na nie dziurki w podstawce) to ile % przyśpieszenia uzyskam? ;)

EDIT: Aaaa, czyli on oddaje 2x tyle rezultatów co ja, tak? A wynik jest tylko za 1 rdzeń, który jest porównywalny z moim?

buninek

#546
jedna przeliczna próbka (WU) przypada na jeden rdzeń

modyfikacji nie polecam  :no:
Cytat: Mori w 05 Październik 2008, 20:41
EDIT: Aaaa, czyli on oddaje 2x tyle rezultatów co ja, tak? A wynik jest tylko za 1 rdzeń, który jest porównywalny z moim?
zgadza się

EDIT:
Nie wszystkie wyprowadzenia (nóżki) na procesorze są wykorzystywane.
Ktoś kiedyś pisał w necie jak umieścił proc po przejściach bez kilkunastu nóżek w podstawce i działał bez zarzutu.

RAD-Poland


   
WCG:
PG:         YOYO:

     

buninek

Wszystkie rodzaje?
Dawno nie liczyłeś. Jest sporo nowych.
moje wyniki: amd x2 4200@2700
http://www.enigmaathome.net/show_user.php?userid=3232
z ciekawości popatrz jak dużo kompów liczy bez optymalek.
Wyniki są beznadziejne.

TJM

Cytat: buninek w 05 Październik 2008, 20:44


EDIT:
Nie wszystkie wyprowadzenia (nóżki) na procesorze są wykorzystywane.
Ktoś kiedyś pisał w necie jak umieścił proc po przejściach bez kilkunastu nóżek w podstawce i działał bez zarzutu.

Nie wiem jak jest w nowych procach, w starych większość nóżek to było zasilanie i masa (żeby rozłożyć bardzo duży prąd), jeśli trafi się na same takie to pewnie i bez połowy proc zadziała.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

3Rni

u mnie jak potrzeba można obadać AMDeki rożnej maści :)

http://www.enigmaathome.net/show_user.php?userid=3229

są A64x2, 1jajowe A64, semprony, athlony xp... zegary od 3000-4600 wszytko przeważnie na socet939...

RAD-Poland

Cytat: buninek w 05 Październik 2008, 21:21
Wszystkie rodzaje?
racja, nie wszystkie, jeszcze był hceyz72 typ 3 i cała gama awgly100
hceyz72 typ 3 ale nie ściągnąłem żadnej tego typu,
co do próbek serii awgly100 fakt są,  zapomniałem o nich  :-[

CytatDawno nie liczyłeś.
fakt na tym kompie AMD długo nie liczyłem ze względu na wydajność, a stara konfiguracja apps.xml nie ściąga nowych próbek
ale mam jeden beznetowiec Intel liczy hceyz72 i awgly100 (nie zgłębiałem tematu rodzajów próbek)

Cytat
moje wyniki: amd x2 4200@2700
http://www.enigmaathome.net/show_user.php?userid=3232
całkiem nieźle, w sumie to dostajesz tyle punktów ile żądasz

wiedząc że Intele liczą znacznie wydajniej uważam, że zmuszanie mojego AMD do liczenia tego projektu jest nie ekonomiczne i lepiej policzyć projekt w którym wydajność CPU jest większa, porównywalna z Intelem czy też są wykorzystywane optymalizacje 64 bitowe

CytatWyniki są beznadziejne.
w porównaniu z intelem to fakt - ale z proponowaną optymalką będzie już trochę lepiej, wyniki (tzn punkty) będą prawie na poziomie otrzymywanych w LHC

   
WCG:
PG:         YOYO:

     

TJM

Może da się wykrzesać coś więcej - zasysam nową wersję kompilatora Intela i zobaczę jak będzie wyglądał 64 bitowy exek - zauważcie, że teraz porównujecie 32 bit ICC do 64 gcc, a już dawno było wiadomo że aplikacje 64 bitowe są nieco szybsze.
Może znajdzie się ktoś, kto da rade ujarzmić to dziadostwo pod Windowsem ? Jest 30 dniowa wersja, exeki przygotowane raz wystarczą na długo, grunt żeby zdążyć to rozkminić przez 30 dni %-)

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

TJM

Cytat: ERni w 05 Październik 2008, 22:02
u mnie jak potrzeba można obadać AMDeki rożnej maści :)

http://www.enigmaathome.net/show_user.php?userid=3229

są A64x2, 1jajowe A64, semprony, athlony xp... zegary od 3000-4600 wszytko przeważnie na socet939...


Wszystkie z domyślną aplikacją ?


W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

RAD-Poland

#554
używałem ICC w wersji 64 bitowej l_cc_p_10.1.018_intel64
(wyniki były o 5% gorsze od Twoich 32 bitowych, ale może to wina złych opcji kompilacji)

EDIT: TJM liczę na dobre optymalki zawsze były lepsze od moich  :)

   
WCG:
PG:         YOYO:

     

TJM

Zobaczymy później - na razie bawię się z gcc 3.2, póki co najlepsze co udało mi się osiągnąć to 412s w benchmarku (Athlon 64 2.2GHz).


W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

buninek

#556
Ja próbowałem icc z tej wersji l_cc_p_10.1.015_intel64.tar.gz i były problemy:
1) Pod x86_64 jest problem z instalacją. Musisz mieć część bibliotek 32-bitowych.
2) glibc wersja najwyżej 2.6 (u mnie były tylko 2.8 instalator odradzał instalację)
3) Do icc.cfg musiałem dać taki wpis "-idirafter /usr/include/linux"
4) Przy kompilacji pluł się o libimf.so. Musiałem ją statycznie zlinkować.
    Pojawił się problem. Aplikacje test przechodziły (wyniki raczej słabe)
    a z wrapperem już się krzaczyły.

3Rni

Cytat: TJM w 05 Październik 2008, 22:28
Cytat: ERni w 05 Październik 2008, 22:02
u mnie jak potrzeba można obadać AMDeki rożnej maści :)

http://www.enigmaathome.net/show_user.php?userid=3229

są A64x2, 1jajowe A64, semprony, athlony xp... zegary od 3000-4600 wszytko przeważnie na socet939...


Wszystkie z domyślną aplikacją ?

od dziś wszystkie maja wgrane optymalki do A64 i XP....... sempronom nie wiedziałem co i dostały od a64

TJM

Czas dorzucić trochę do pieca %-)

gcc -Wall -W -O2 -finline-functions -funroll-loops -ffast-math -mtune=athlon64 -march=k8 -fomit-frame-pointer -fschedule-insns

290s benchmark na A64 2.2GHz, 32bit - przy 64 bitowej aplikacji powinno jeszcze spaść

Nie jestem pewien czy można bezpiecznie używać -ffast-math ale na razie błędów nie widzę.

EDIT: praktycznie to samo, 3 sekundy wolniej, również 32 bitowy exek:

icc -ip -ipo -Wall -O3


W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

Mori