Aktualności:

Nasza strona na Facebooku - poleć znajomym.

Menu główne

Plagiarism@Home

Zaczęty przez krzyszp, 14 Październik 2013, 11:51

krzyszp

Uruchomiłem projekt Plagiarism@Home, którego pomysłodawcą jest Tobas.
W tej chwili aplikacja projektu jest w fazie "bardzo alfa(beta)" i jest dość prymitywna.

Projekt działa pod adresem Plagiarism@Home i jak łatwo się domyślić jest utrzymywany przez Fundację BOINC Polska, co jest istotne ze względu na bardzo duże wymagania dyskowe (zakładam, że projekt będzie używał dość potężnej bazy danych).
Celem projektu jest automatyczne przeszukiwanie sieci w poszukiwaniu duplikatów a także cytatów w dostarczonych dokumentach.

W tej chwili projekt ma testową aplikację pod Linuksa 64bit, do poprawnego działania wymaga biblioteki GLIBC w wersji min. 2.14 (ze względu na dynamicznie linkowaną bibliotekę libcurl).

Zaznaczam, że projekt w czasie działania intensywnie wykorzystuje łącze internetowe.

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

sknd

ale oprócz neta, procka też używa intensywnie?

krzyszp

Cytat: sknd w 14 Październik 2013, 12:30
ale oprócz neta, procka też używa intensywnie?
Nie powinien, ten program ściąga kolejno strony internetowe z podanej listy i przeszukuje je pod kątem tekstu podanego w WU.
W tej chwili oczywiście tekst jest próbny (jeden z artykułów z Wikipedii).

Ze względu na czas ściągania i związane z tym opóźnienia procek nie powinien być zbyt obciążony.

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

sknd

tak spytałem, bo może by się dało go zrobić projektem Non-Cpu?

krzyszp

Raczej nie, bo jednak przeszukiwanie tekstu może trochę zajmować mocy. Ale zobaczymy w praniu (wyniki moich testów są niemiarodajne - wirtualka dość mocno obciążona innymi procesami).

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

Gołąbpocztowy

Dołączony, ale czekam na apke pod win :)

Dario666

Kurczę, trochę karkołomnie zadanie. Chyba do tej pory tylko Chuck Norris ściągnął cały Internet  XD

krzyszp

A tam zaraz, mam go na 3 dyskietkach ;)
A tak poważnie, to ściągam tylko listę linków do bazy...

Wysłane z SGS3 więc bez polskich znaków ;)

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

Gołąbpocztowy

Chciałem trochę policzyć na vboxie ale nie mogę uruchomić systemu z kernelem 64 bitowym bo wyskakuje mi błąd, że mój procesor nie obsługuje instrukcji 64 bitowych :( Mam i7 i nie wiem jak to rozwiązać...

Szopler

Sprawdź w BIOSie czy masz włączoną obsługę wirtualizacji (Virtualization Technology) i "Intel VT-D Tech".

krzyszp

Z jakiegoś nie znanego mi powodu serwer przestał rozsyłać próbki pomimo, że wszystkie daemony chodzą... Jakieś sugestie?
Druga sprawa - poproszę kogoś o sprawdzenie, czy serwer wysyła maile, np. poprzez próbę przypomnienia hasła...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

sknd

#11
no wysłał poprawnie  :)

EDIT: ale jeszcze nie udało mi się dostać ani jednego WU, mimo wstrzymania wszystkich innych projektów. Mam glibc 2.18. manager pisze tylko tak:
śro, 16 paź 2013, 09:41:57 | Plagiarism@Home | update requested by user
śro, 16 paź 2013, 09:42:00 | Plagiarism@Home | Sending scheduler request: Requested by user.
śro, 16 paź 2013, 09:42:00 | Plagiarism@Home | Requesting new tasks for CPU
śro, 16 paź 2013, 09:42:01 | Plagiarism@Home | Scheduler request completed: got 0 new tasks
śro, 16 paź 2013, 09:42:01 | Plagiarism@Home | No tasks sent


patyczak

Mi pobrał około 3 w nocy jedną jednostkę oznaczoną jako non CPU intensive i o siódmej rano wciąż ją liczył, postęp był na poziomie 50% jeśli dobrze zapamiętałem.
Skeczu z papugą nie będzie



Gołąbpocztowy

Obsługa wirtualizacji w biosie jest włączona. Dalej problem występuje :(


ps. mogę prosić moderatora o wydzielenie wątku żeby nie robić śmietnika?

krzyszp

Cytat: patyczak w 16 Październik 2013, 10:51
Mi pobrał około 3 w nocy jedną jednostkę oznaczoną jako non CPU intensive i o siódmej rano wciąż ją liczył, postęp był na poziomie 50% jeśli dobrze zapamiętałem.
Podaj mi listę plików z katalogu projects i slots. Ja jakoś nie mogę upolować WU i ne wiem, czy dobrze pliki się przesyłają...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

Troll81

A tak z głupia frant zapytam Gołab. Jakiego masz VBoxa?? czy aby nie 32bit??

Gołąbpocztowy

vbox najnowszy (4.3) postawiony na 64 bitowym windowsie 8

Troll81

Czy masz w systemie uruchomiona usługę Hyper-V ? (bywa że blokuje Vboxa)

Czy masz w biosie zaznaczoną opcję "trusted execution"? Ona również może przeszkadzać.

patyczak

Cytat: krzyszp w 16 Październik 2013, 12:49
Cytat: patyczak w 16 Październik 2013, 10:51
Mi pobrał około 3 w nocy jedną jednostkę oznaczoną jako non CPU intensive i o siódmej rano wciąż ją liczył, postęp był na poziomie 50% jeśli dobrze zapamiętałem.
Podaj mi listę plików z katalogu projects i slots. Ja jakoś nie mogę upolować WU i ne wiem, czy dobrze pliki się przesyłają...
Katalog projects:
adr2.in
job_2.xml
upper_case_1_i686-pc-linux-gnu
doc2.in
pl_check1_8_i686-pc-linux-gnu
job_1.0.xml

slots:
adr1.in
doc1.in
pl_check1_8_i686-pc-linux-gnu
boinc_lockfile
init_data.xml
raport.txt
boinc_mmap_file
job.xml
stderr.txt

Próbka liczy się 19 godzin postęp 66,873%
Skeczu z papugą nie będzie



krzyszp

No to jesteś pierwszy, któremu liczy...
U mnie na wszystkich kompach wykrzacza się z błędem:
<message>
process got signal 11
</message>

Co ciekawe, na tej samej maszynie odpalony "standalone" (z palca) chodzi wyśmienicie... Google nie podaje przydatnych informacji, tylko listę projektów z tymi samymi błędami bez rozwiązania... Dodam, że mam tak na 3 maszynach (Debian x1 i Ubux2).

Ps. App jest już w wersji 11-tej... (pl_check1_11_i686-pc-linux-gnu) i jest non-cpu-intensive...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

patyczak

#20
Wszystkie WU wersji 0.11 kończyły się błędem ale widzę, że menadżer pobrał wersję 0.15, także zobaczymy co dalej.

Edit:
WU 0.15 też się wykrzaczają z tym samym błędem.
Skeczu z papugą nie będzie



sknd

a ja ciągle (mimo kilkukrotnego resetowania projektu, coby pobrać nowe aplikacje) nie mogę pobrać żadnych WU - cały czas jest tak:

czw, 17 paź 2013, 13:51:18 | Plagiarism@Home | Sending scheduler request: To fetch work.
czw, 17 paź 2013, 13:51:18 | Plagiarism@Home | Requesting new tasks for CPU
czw, 17 paź 2013, 13:51:19 | Plagiarism@Home | Scheduler request completed: got 0 new tasks
czw, 17 paź 2013, 13:51:19 | Plagiarism@Home | No tasks sent





krzyszp

Przyznam, że nie mam pojęcia, dlaczego wywala 99,9% próbek (kilka zakończonych sukcesem). Jak pisałem, próbki odpalone standalone działają na każdej mojej maszynie bez problemu, pod BOINC kilka skończyło się sukcesem, ale większość nie... Dodatkowo na niektórych hostach wywala się po 1 lub 2 sekundach, a na innych po półgodzinie dopiero...

Jako, że standalone działa (na moich wszystkich maszynach), a pod managerem nie, więc wywaliłem z kody wszystkie odwołania do api BOINC'a poza koniecznymi boinc_init i boinc_finish, czekam teraz na efekty (ale już widzę, że większość maszyn wywala dalej).
Chcę przepuścić trochę próbek przez różne komputery i zobaczyć, czy jest jakaś reguła.

Póki co, pracuję nad generowaniem WU, dzięki czemu zamiast ~50k takich samych linków do każdego pójdzie 100 (albo inna sensowna liczba) różnych dla każdego. Zobaczymy, co się będzie działo...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

krzyszp

Wygenerowałem 1k dość krótkich zadań (po ok 200 linków do sprawdzenia) i zauważyłem, że co najmniej jeden z moich hostów pobiera je i wykonuje bezbłędnie teraz:
http://plagiarism.boincpolska.org/plagiarism/results.php?userid=1&offset=0&show_names=0&state=2&appid=
Niestety, tylko ten jeden...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

patyczak

Mój host też dobrze liczy  :)

http://plagiarism.boincpolska.org/plagiarism/results.php?hostid=28
Skeczu z papugą nie będzie



sknd

a ja ciągle nie mogę nic pobrać  :dunno:

krzyszp

Cytat: sknd w 17 Październik 2013, 15:54
a ja ciągle nie mogę nic pobrać  :dunno:
Podaj id hosta, zobacze dlaczego.

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

krzyszp

Cytat: patyczak w 17 Październik 2013, 15:49
Mój host też dobrze liczy  :)
http://plagiarism.boincpolska.org/plagiarism/results.php?hostid=28
Możesz podać detale o tym hoście? (jaka dystrybucja)

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

sknd

Cytat: krzyszp w 17 Październik 2013, 16:29
Cytat: sknd w 17 Październik 2013, 15:54
a ja ciągle nie mogę nic pobrać  :dunno:
Podaj id hosta, zobacze dlaczego.
29

krzyszp

Zaakceptowałeś testowe aplikacje?

Edit:
Zmieniłem flagę - to już nie jest testowa aplikacja (chwilowo) ;)

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

sknd

#30
nawet nie wiedziałem, że jest taka możliwość, nie wiem też gdzie i jak to zrobić  :whistle:

teraz zaciągnął  1 WU, ale od razu wyskoczyło bład przetwarzania, a w dzienniku:
czw, 17 paź 2013, 16:53:22 | Plagiarism@Home | Starting task t10---0.4---._445_0 using pl_check1 version 19 in slot 1
czw, 17 paź 2013, 16:53:23 | Plagiarism@Home | Computation for task t10---0.4---._445_0 finished

patyczak

Cytat: krzyszp w 17 Październik 2013, 16:31
Cytat: patyczak w 17 Październik 2013, 15:49
Mój host też dobrze liczy  :)
http://plagiarism.boincpolska.org/plagiarism/results.php?hostid=28
Możesz podać detale o tym hoście? (jaka dystrybucja)

Dystrybucja Ubuntu 11.xx końcówki nie pamiętam. Komputer jest leciwy Athlon 3200+, 1GB.

http://plagiarism.boincpolska.org/plagiarism/results.php?hostid=19
Natomiast ten host też liczy mi dobrze. Ubuntu 12.04LTE, intel quad, 4GB, boinc 7.0.65
Skeczu z papugą nie będzie



Troll81

http://plagiarism.boincpolska.org/plagiarism/results.php?userid=1811

mi na razie działa

win7 x64

GenuineIntel
Intel(R) Core(TM) i5 CPU 750 @ 2.67GHz [Family 6 Model 30 Stepping 5]
(4 processors)

AMD ATI Radeon HD 4700/4800 (RV740/RV770) (512MB) driver: 1.4.1646 OpenCL: 1.00

Microsoft Windows 7
Professional x64 Edition, Service Pack 1, (06.01.7601.00)

ale dostawałem same uppercase

na stronie ustawień mam by wysyłał ze wszystkich apek i w razie braku WU podsyłał inne apki


krzyszp

To stare resendy upper_case, już nie generuję nowych.

Mam zamiar przysiąść do app pod windows jak tylko znajdę dobre info na temat konfiguracji VS lub Code::Blocks z bibliotekami BOINC na Windows.

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

patyczak

Czyżby chwilowa awaria projektu?
Skeczu z papugą nie będzie



krzyszp

Czekam na info od Tobasa :/

Wysłane z SGS3 więc bez polskich znaków ;)


Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

Tobas

Serwer wstał - szukam właśnie przyczyn padu.

patyczak

Tak nawiasem mówiąc to drugi raz mam WU, która liczy się już 22 godziny i stanęła na 85%. Pewnie kiedy menadżer połączy się z projektem serwer ją anuluje.
Skeczu z papugą nie będzie



krzyszp

Już chodzi wszystko, na szczęście nic nie umarło :)

Natomiast wyszedł na jaw błąd koncepcyjny...
Zakładałem, że crawler będzie pobierał (same) linki ze stron internetowych i gromadził je w bazie danych, a aplikacja będzie dostawać jakiś wycinek tych linków do sprawdzenia. Tak napisałem klienta. Błąd.
Opierałem się na informacji, że wszystkich stron ('unique pages' - nie domen!) jest w internecie 440'000'000, co niestety okazało się zaniżoną bzdurą. Wg bloga Google, jest ich... trylion!
CytatRecently, even our search engineers stopped in awe about just how big the web is these days -- when our systems that process links on the web to find new content hit a milestone: 1 trillion (as in 1,000,000,000,000) unique URLs on the web at once!
Już samo zapisanie w bazie takiego zbioru linków (bez zawartości stron oczywiście) wykracza daleko poza nasze możliwości sprzętowo/finansowe. To powoduje, że muszę całkowicie zmienić zasadę działania crawlera i klienta.

Myślę, że jedyną sensowną metodą jest zgromadzenie w bazie TYLKO adresów domenowych stron (których jest ok. 100kk), a w klienta trzeba wbudować crawlera, który będzie już całkiem samodzielnie przeszukiwał konkretną stronę. Niestety jest to już dużo bardziej skomplikowane i trochę potrwa - w międzyczasie chcę podszlifować moje umiejętności w C++ i programowaniu do BOINC...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

krzyszp

Przekompilowałem apkę pod Debianem 7, teraz powinna działać na większości w miarę nowych dystrybucjach Linuksa bez sypania błędami :)

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka