Plagiarism@Home

Zaczęty przez krzyszp, 14 Październik 2013, 11:51

sknd

u mnie nadal dupa:
pią, 18 paź 2013, 23:36:55 | Plagiarism@Home | Starting task t10---0.7---._815_2 using pl_check1 version 26 in slot 1
pią, 18 paź 2013, 23:36:56 | Plagiarism@Home | Computation for task t10---0.7---._815_2 finished


Xeon E3-1230V2, archlinux, jądro 3.11.5-1-ck

krzyszp

Cytat: sknd w 18 Październik 2013, 23:38
u mnie nadal dupa:
pią, 18 paź 2013, 23:36:55 | Plagiarism@Home | Starting task t10---0.7---._815_2 using pl_check1 version 26 in slot 1
pią, 18 paź 2013, 23:36:56 | Plagiarism@Home | Computation for task t10---0.7---._815_2 finished


Xeon E3-1230V2, archlinux, jądro 3.11.5-1-ck
Kompilowałem na jajku 3.2, pewnie dlatego... :/

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

Gołąbpocztowy

A może warto skorzystać z  już jakiegoś gotowego crawlera? Np. yacy?

Tobas

Cytat: Gołąbpocztowy w 19 Październik 2013, 11:58
A może warto skorzystać z  już jakiegoś gotowego crawlera? Np. yacy?

Też o tym myślałem - zrobić wrapper do Yacy na początek, a w międzyczasie rozwijać własnego, super, hiper sprawnego crawlera.

krzyszp

W tej chwili używam OpenWebSpider'a na serwerze i jest dostępny jego kod źródłowy, więc bardzo możliwe, że to jego fragmenty wykorzystam (tylko nieszczęsne komentarze po włosku :/).

Zwracam uwagę, że w appce docelowo potrzebny jest bardzo prosty crawler - zbędna jest cała funkcjonalność yacy czy też OWS, jego zadaniem jest tylko dostarczyć zbiór linków danej strony.

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

krzyszp

Mógłby ktoś spróbować odpalić testowy plik na Windows 32bit?

Archiwum w załączniku...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

patyczak

"Błąd podczas wykonywania programu"  :dunno:
Skeczu z papugą nie będzie



krzyszp

Już zdążyłem, dzięki nieocenionej pomocy RAD-Poland poprawić i aplikacja jest na serwerze :)

Uprzedzam, że antywirus może się awanturować, bo i serwer i aplikacja mają "reputation low" - a przynajmniej Avast się awanturuje u mnie...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

Gołąbpocztowy

Uruchomiłem na 64 bitowym windowsie 8.1 i liczy. Często się niestety zdarza, że próbka się zatrzymuje i trzeba ją ręcznie wywalać bo nie rusza dalej (np. przez godzine-dwie).

Pytanko, jezeli obciąza lekko procesor i łącze nie tak bardzo to czy można uruchomić w przyszłości x próbek równolegle? (mam np. łącze 20/10 mbitów i 8 rdzeniowy procesor).

Tobas

W przyszłości aplikacja zmieni się jeszcze 10x, więc nie ma sensu na tym etapie zastanawiać się na tego typu problemami.
Póki co to jest wersja beta samego Crawlera. Do gotowej aplikacji jest jeszcze bardzo długa droga..

krzyszp

Dzisiaj zamierzam popracować trochę nad obsługą wyjątków w aplikacji, bo niestety wywala się na dość dużym odsetku komputerów (zwłaszcza XP).
Niestety, może zająć to trochę czasu, bo nie bardzo mam pojęcie, co jest tego przyczyną (bo oczywiście u mnie chodzi świetnie i bezproblemowo).

Drugim problemem, którym muszę się zająć jest wysokie użycie CPU na Windows (dochodzi do 25% rdzenia), co jest co najmniej dziwne. Jeżeli okaże się, że winna jest linkowana biblioteka to niestety nic z tym nie zrobię...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

sknd

nieśmiało spytam - jest szansa, że kiedyś wersja linuxowa będzie na wszystkich jądrach śmigać?  :whistle:

krzyszp

Cytat: sknd w 29 Październik 2013, 11:58
nieśmiało spytam - jest szansa, że kiedyś wersja linuxowa będzie na wszystkich jądrach śmigać?  :whistle:
A na jakim nie śmiga? U mnie działa na 2.6, 3.2, 3.6, 3.8... Więcej maszyn mi brak do sprawdzenia...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

sknd

o ile dobrze pamietam to mam teraz 3.11, próbki się do razu wywalają... pisałem o tym parę postów wyżej

krzyszp

Cytat: sknd w 29 Październik 2013, 14:01
o ile dobrze pamietam to mam teraz 3.11, próbki się do razu wywalają... pisałem o tym parę postów wyżej
Daj mi linka do swojego kompa w projekcie, muszę coś sprawdzić.

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

sknd

http://plagiarism.boincpolska.org/plagiarism/show_host_detail.php?hostid=29

krzyszp

Masz zainstalowaną starą (bardzo) wersję curl'a... W moim Debianie 6 jest nowsza. Jakie to distro?

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

sknd

archlinux. Mam curla 7.33.0, z tego co widzę na ich stronce to najnowszy jest...

krzyszp

Prośba o przetestowanie programów...

W załączniku jest archiwum z dwoma plikami wykonywalnymi i plikami wejściowymi.
Proszę o odpalenie najpierw pliku parser.exe.
W wyniku pokaże się raport.txt oraz stderr.txt, o ile to możliwe proszę o przesłanie mi tego pliku w PW.

Drugim programem jest example_app.exe. Proszę o uruchomienie go po uprzednim skasowaniu dwóch plików powstałych w wyniku działania poprzedniego pliku (raport.txt oraz stderr.txt) - inaczej wyniki się dodadzą do wcześniejszych.

Zależy mi na dwóch informacjach:
1. Obciążenie CPU w trakcie działania.
2. Na jakiej ilości komputerów się wysypie.

Dodatkowo, stderr pokaże mi co się stało.

Obydwa programy dla Windows, pod Linuksem wszystko działa ok...
O ile to możliwe, komputer podczas wykonywania tych programów powinien być obciążony w minimalnym stopniu.

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

sknd

No u mnie pod linuxem nadal nie działa...  :dunno: jesli masz jakieś pomysły,co mógłbym zrobić żeby zadziałało, dajesz. Tak jak pisałem powyżej, to raczej nie curl, chyba że chodzi o jakieś bindingsy, wrappery albo interfejsy dla curla...

wrzucam tu listę pakietów związanych z curlem, mogę coś z tego zainstalować, tylko prosze o sugestie, bo ciemny jestem w temacie...
0 core/curl 7.33.0-2 [zainstalowano]
      An URL retrieval utility and library
1 extra/python2-pycurl 7.19.0.2-1
      A Python 2.x interface to libcurl
2 community/curlftpfs 0.9.2-5
      A filesystem for acessing FTP hosts based on FUSE and libcurl.
3 community/flickcurl 1.24-1
      C library for the Flickr API
4 community/gambas3-gb-net-curl 3.5.0-3 (gambas3)
      Curl component
5 community/httpie 0.7.2-2
      cURL for humans
6 community/perl-www-curl 4.15-4
      Perl/CPAN Module WWW::Curl
7 multilib/lib32-curl 7.32.0-1 [zainstalowano]
      An URL retrieval utility and library (32-bit)
8 aur/haskell-curl 1.3.8-1 (111)
    Haskell binding to libcurl
9 aur/ruby-curb 0.8.4-1 (46)
    Libcurl bindings for Ruby
10 aur/curlpp 0.7.3-3 (29)
    C++ wrapper for libcURL
11 aur/python-urljr 1.0.1-2 (19)
    URL-related utilites, including a common interface to HTTP fetchers for
    PycURL and urllib2
12 aur/curlew 0.1.20-5 (17)
    Easy to use, Free and Open-Source Multimedia converter for Linux in Python
13 aur/elmer 67.2021ad3-2 (9)
    Robust frontend to wget and/or curl for various pastebin services
14 aur/curlmirror 20020714-1 (9)
    Mirrors a web site by using curl to download each page
15 aur/libcurl-gnutls 7.32.0-1 (8)
    An URL retrieval utility and library
16 aur/vim-hicurline 6-1 (7)
    Highlights the current line
17 aur/ruby-typhoeus 0.6.5-1 (7)
    Parallel HTTP library on top of libcurl multi.
18 aur/mingw32-curl 7.27.0-1 (7)
    An URL retrival utility and library. (mingw32)
19 aur/python3-pycurl 7.19.0-1 (6)
    Python interface to libcurl.
20 aur/ocaml-curl 0.5.3-3 (6)
    OCaml bindings to libcurl networking library
21 aur/luacurl 1.2.1-1 (5)
    Module providing Internet browsing capabilities based on the cURL library
22 aur/mingw-w64-curl 7.33.0-1 (4)
    An URL retrival utility and library. (mingw-w64)
23 aur/gdal-curl 1.10.1-2 (4)
    A translator library for raster geospatial data formats with curl and
    podofo (PDF) support
24 aur/ttf-curlz_mt 1.0-2 (3)
    custom fonts
25 aur/perl-net-curl 0.25-1 (3)
    Perl interface for libcurl
26 aur/lua-curl 0.2-1 (3)
    Aiming for a full-fledged libcurl binding
27 aur/curl-git 7.30.0.101.gf4e6e20-1 (3)
    A URL retrieval utility and library
28 aur/wxcurl-svn 839-2 (2)
    wxCURL is a simplified and integrated interface between LibCURL and
    wxWidgets.
29 aur/ruby-ethon 0.6.1-1 (1)
    Libcurl wrapper.
30 aur/r-cran-rcurl 1.95_3-1 (1)
    General network (HTTP/FTP/...) client interface for R
31 aur/python-httpie-git 20120828-1 (1)
    cURL for humans
32 aur/liblastfm_c-git 20111229-2 (1)
    An unofficial C-API for the Last.fm web service written with libcurl
33 aur/gdal-filegdb 1.10.1-1 (1)
    A translator library for vector and raster geospatial data formats (curl,
    PDF and FileGDB support)
34 aur/falconpl-curl-svn 9999-1 (1)
    The cURL lib binding for falcon programming language
35 aur/ec2-metadata 0.1-1 (1)
    A simple bash script that uses curl to query the EC2 instance Metadata
    from within a running EC2 instance.
36 aur/useragent-git 1:5.24fcd99-1 (0)
    Writes different useragents to stdout. Useful in combination with curl
37 aur/python2-httpie-git 20120828-1 (0)
    cURL for humans
38 aur/perl-www-curl-simple 0.100186-1 (0)
    A Simpler interface to WWW::Curl
39 aur/partialzip 20130107-1 (0)
    Using curl's partial downloading feature to retrieve selected portions
    of ZIP files
40 aur/mingw32-wxcurl-static-svn 839-1 (0)
    wxCURL is a simplified and integrated interface between LibCURL and
    wxWidgets.
41 aur/libx32-curl 7.28.0-1.2 (0)
    An URL retrieval utility and library (x32 ABI)
42 aur/libtwitcurl-svn 93-2 (0)
    A pure C++ twitter API library based on cURL
43 aur/httpcli 1.1.3-1 (0)
    RESTful command line HTTP client (simpler than cURL).
44 aur/curl-with-m4-macros 7.32.0-2 (0)
    An URL retrieval utility and library (package with libcurl.m4)
45 aur/curl-gssapi 7.30.0-1 (0)
    An URL retrieval utility and library



krzyszp

Wygląda na to, że wersja curl'a jaką masz zainstalowaną nie ma obsługi SSL.

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

krzyszp

Wygląda na to, że po kolejnych kilku kompilacjach udało mi się uzyskać względną stabilność działania apki dla Windows.

Okazuje się, C++ i Microsoft C++ to są w zasadzie różne języki...

Aplikacja nadal się czasami wywala z dziwnym komunikatem, ale jak dotąd tylko u kilku klientów, głownie na xp i u jednego na ósemce... Na każdym komputerze opis błędu jest inny :/
Jeżeli nie będzie za dużo błędnych próbek to zostawię tę app, w przeciwnym wypadku wypadnie z serwera (jak zwykle).

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

PDH

Normalnie WU idą kilka minut, a dziś ubiłem zadanko po 15 godzinach mielenia http://plagiarism.boincpolska.org/plagiarism/workunit.php?wuid=102120
Miał ktoś podobnie?

krzyszp

Zauważyłem to zjawisko. Powtarza się raz na kilka tysięcy zadań.
Moje podejrzenie jest takie, że z jakiegoś powodu apka nie może pobrać jakiejś strony i ciągle czeka na odpowiedź serwera.
Na Twoim przykładzie widać, że drugi komputer nie miał z tym problemu...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

krzyszp

Dawno nic nie było w Plagiatowym, ale co się ruszyło, to piszę ;)

Zmieniłem całkowicie mechanizm generowania WU, od tej chwili nie ma żadnej potrzeby przechowywania bazy danych linków do stron internetowych... Jak to możliwe?
Otóż (o czym pisałem w innym wątku) postawiłem na jednym ze swoich VPS'ów serwer wyszukiwarki YaCy. Obecnie generator WU działa następująco:

1. Rozbija tekst sprawdzanego dokumentu na poszczególne zdania.
2. Dla każdego zdania, z serwera YaCy pobiera listę linków do stron, które YaCy wskazuje dla danej frazy (od 10 do 1000 linków).
3. Wszystkie linki dodawane są do pojedynczego pliku.
4. Plik ten służy jako baza linków dla WU - czyli dla każdego WU przydzielona zostaje pewna ilość linków.

Dzięki tej "reorganizacji" do sprawdzenia dużej książki (w teście były to przygody Sherlocka Holmsa) wystarczy ok 200WU. Czyli teoretycznie dziennie można sprawdzić nawet kilkadziesiąt prac, bez ryzyka, że zabijemy jakiś serwer odpytując go dużą ilość razy...

Obecnie muszę się skoncentrować na dwóch sprawach:

1. Wyciągnięcie wyników zgodnych (czyli znalezionych skopiowanych fraz) z serwera BOINC i powtórną weryfikację tych wyników.
2. Opracowanie interfejsu (stronki) do dodawania prac do sprawdzenia i automatycznego generowania WU z zadanych treści.

Oczywiście, mile widziana osoba mająca ochotę opracować odpowiednie formularze, oczywiście podam kompletne informacje do generowania WU (jeden skrypt PHP oraz jeden shell'owy).

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

Troll81

 :respect: brawo. sprytny myk.

Cyfron

a jak tam generowanie próbek teraz? Bo ja już dawno nic nie dostałem do liczenia :)

krzyszp

Cytat: Cyfron w 23 Luty 2014, 08:38
a jak tam generowanie próbek teraz? Bo ja już dawno nic nie dostałem do liczenia :)
Zgodnie z informacją na stronie głównej projektu i wyświetlonej w Managerze - chwilowo projekt jest wstrzymany (do czasu skonkretyzowania spraw sprzętowych) ;)

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

Troll81

to kiedy wznawiamy działalność??

http://wyborcza.pl/1,87648,17067436,Chora_na_raka_13_latka_przepisala_powiesc_z_cudzego.html

kva.pl

Holy shit!

http://akrylove.blogspot.in/2014/10/breakin-law.html - tu opisane ciekawiej.

AL

No właśnie krzyszp - kiedy ruszamy (domincyś cały czas ponawia oferty udostępnienia serwa ;) )? Brakuje mi 4k do check pointa!

krzyszp

Na razie Plagiatowy musi być zawieszony z dwóch ważnych powodów:

1. Muszę nauczyć się parsować tekst z plików PDF.
2. Aby poważnie ruszyć z Plagiatowym, potrzebny jest bardzo mocny serwer (i nie mówimy tu o dedyku za 200pln).

Do tematu wrócę, jak będę gotowy, ale na pewno nie w najbliższych kilku miesiącach niestety...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka