Aktualności:

W MEDIA znajdziesz grafiki, banery i avatary

Menu główne

Yacy - wyszukiwarka p2p

Zaczęty przez Gołąbpocztowy, 02 Listopad 2011, 23:38

Gołąbpocztowy

Witam
Chciałbym wam dzisiaj przedstawić projekt, który nie jest oparty o BOINC, ale ma podobne cele i wykonanie. Jest nim Yacy czyli wyszukiwarka tworzona przez użytkowników. Dzięki temu, że jest zdecentralizowana nie ma zarządzającego nią serwera nie może być ani ocenzurowana ani manipulowana wynikami czy obklejana reklamami. Tak samo jest ze śledzeniem użytkowników (propaganda google jest złe i nie dobre). Oczywiście projekt nie działa tak sprawnie jak google czy bing, ale to przez brak użytkowników którzy będą uruchamiali maszyny i przeszukiwali Internet w celu indeksowania każdej podstrony. Chciałbym was zachęcić do spróbowania, zasmakowania tematu, a może wam się spodoba i uruchomicie maszynkę :) (projekt obciąża ram i łącze znośnie więc w pewnych warunkach może działać pod klientem boinc).

http://yacy.net

oraz artykuł na pl.wiki
https://pl.wikipedia.org/wiki/YaCy



Instalacja nie powinna nikomu przysporzyć większych problemów. Wystarczy pobrać odpowiednie pliki instalacyjne ze strony domowej (yacy.net - prawa strona ekranu) i zainstalować. Po instalacji wchodzimy przez przeglądarkę pod adres http://localhost:8090 i mamy cudowny webowy interfejs. Następnie musimy skonfigurować firewalla i przekierować port 8090 na ten komputer (jeżeli masz upnp włączone w ruterze powinno się automagicznie skonfigurować). Następnie wchodzimy na zakładkę "Cravler/Harvester" i ustawiamy co mamy indeksować tj. adres url i jak głęboko ma kopać. To tyle.


ps. Zastanówcie się ile google wie o was:
- wie gdzie mieszkasz i co masz na ogródku (earth)
- wie gdzie się poruszasz (android + wifi)
- wie z kim piszesz maile (gmail)
- wie z kim rozmawiasz (gtalk)
- wie jakie strony odwiedzasz (chrome, analytics)
- wie co cię interesuje (szukajka, rss)
- wie co kupujesz (checkouts)
- wie co robisz (g+, indeksowanie facebooka, twittera, blipa)
i wiele wiele innych

Troll81

Pomysł ciekawy. Ale post brzmi trochę jak reklama..... :D

AiDec

1. Najpierw czlonkostwo...
2. ...pozniej wyniki...
3. ...a dopiero pozniej moge widziec reklamy.


Jasne?



Bo jest paru kumpli :),
Bo jest parę w życiu dobrych chwil...


Moja wizytowka i sygnaturka

Gołąbpocztowy

 :ahoy:
Nie rozumiem waszych obiekcji... forum drużyny o przetwarzaniu rozproszonym (BOINC i nie tylko). W dziale przetwarzanie rozproszone informacja o wyszukiwarce która działa dzięki idei obliczeń rozproszonych. Możliwość podpięcia się każdego użytkownika i pomocy w projekcie. Równie dobrze mógłbym "zareklamować" nieznany projekt boinc w dziale "Inne/nowe projekty - Ostatnio znalezione". Rozumiem jakby yacy miało z obliczaniem rozproszonym tyle co piernik do wiatraka, ale jak widać tak nie jest. Więc nie widzę związku z reklamą/spamem. Zresztą projekt jest naprawdę stary i nie jest to jakiś nowy projekt, który nie ma ani ugruntowanej pozycji, ani nie wiadomo co robi.

krzyszp

W sumie masz rację -  :parrrty:

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

Troll81

Raczej chodzi o to jakie wrażenie to wywiera. Świeżo zarejestrowany członek forum od razu "reklamuje" usługę, produkt, cokolwiek. Zaglądają do nas boty i z przykrością stwierdzam ze takie zachowanie wygląda właśnie jak działanie bota. Zapraszam cie do działu wizytówki gdzie możesz się przedstawić, napisać parę słów o sobie i przy okazji pochwalić swoimi wynikami w BOINC.

Gołąbpocztowy

Nie zgadzam się. Boty raczej nie mają spersonalizowanych reklam. Zresztą widzę, Trollu81, że masz moderatora. Tnij śmiało  :attack:

Troll81

Wycinać nie zamierzam, bo i tematinteresjący. Raczej zwróciłem ci uwagę na to jak mozesz zostać odebrany. Zapraszm cię do częstcyh odwiedzin na naszym forum i oczywiscie do liczenia :D

Gołąbpocztowy

Wydano wersję 1.0. Nagłe zwiększenie ilości klientów ponad 15 krotnie! (z ~70-90 na 1300) i szybkość indeksowania stron do około ćwierć miliona na minutę. Coraz milej się używa tej wyszukiwarki  :ahoy:

Troll81

robi sie faktycznie ciekawe :D

TJM

Jako globalna wyszukiwarka projekt wydaje mi się na razie taki sobie, wyniki wyszukiwania są bardzo dziwne i ogólnie raczej słabej jakości.
Natomiast interesująca jest możliwość zaindeksowania własnej strony, co w połączeniu z możliwością zmiany wyglądu wyszukiwarki pozwoliłoby zaimplementować dobrą wyszukiwarkę tam, gdzie domyślna wbudowana w sajt jest kiepska.

W razie jakiejś pilniejszej sprawy - jestem często dostępny na kanale IRC B@P, na forum czasami zapominam zajrzeć lub nie mam czasu.

GRID

#11
Ostatnio obejżałem kilka filmów w stylu wirtualna rewolucja i zagrożenia związane z potęgą google, facebooka itp.
I w przyszłości projekt rozproszonej wyszukiwarki będzie się szybciej rozwiał. Tym więcej osób które będą czuć się poszkodowane z braku poufności danych.


Czy można tą wyszukiwarkę zainstalować sobie na komputerze ? Chodzi mi o to czy mogę zainstalować program który będzie indeksował na byle jakim kompie ?

Gołąbpocztowy

#12
Powiem tak, jeżeli udostępniasz coś publicznie to nie dziw się, że można to odszukać w końcu udostępnia się dane, które każdy może zobaczyć. Jeżeli nie chcesz żeby po wpisywaniu w wyszukiwarce "grzegorz brzęczyszczykiewicz powiat łękodoły" pokazała ci się twoje zdjęcie w przyjmijmy jednoznacznej sytuacji to po prostu tego zdjęcia nie umieszczaj. Tak samo z adresami pocztowymi, numerami telefonów czy innych paskudztw.

Edit: Oczywiście, że możesz zainstalować na jakim chcesz komputerze, ten komputer nawet nie musi chodzić non stop (dane zaindeksowane i tak zostaną zapisane w tablicy hashującej rozproszonej pomiędzy peerami).

Sebastian M. Bobrecki

@Gołąbpocztowy
I jak, działasz z tym?
Kocham pracę, mogę na nią patrzeć godzinami.

Gołąbpocztowy

Mam odpalony crawler od paru tygodni. Ładnie indeksuje i działa. Ostatnia średnia prędkość indeksowania to prawie pół miliona stron na minutę. Wyniki wyszukiwania coraz bardziej znośnie chociaż polski Internet jeszcze trochę kuleje dlatego indeksuje w większości polskie strony (wp.pl/onet.pl z głębokością 4). Średnia moja prędkość to 1k-1,5k ppm

GRID

Ja mam zamiar też z tym podziałać, mam przygotowane już kilka hostów - linux, win7 - różne internety. Tylko muszę znaleźć chwilę na zapoznanie się z konfiguracją tego Yacy.

Pantarhei

Panowie!

Sześcioletnia córeczka koleżanki zainteresowała się tym wątkiem. Czy ktoś mógłby go dla niej, w prostych słowach, wyjaśnić: czym to się różni od google, jak działa i w ogóle wszystko?  :book:

Ja sam oczywiście mógłbym jej to opisać aleeee.... yyyyy... nie chce mi się teraz.  :whistle:
W związku z powyższym, wnoszę o przyznanie mi renty inwalidzkiej drugiej grupy.

GRID

Fajnie by było jakby Gołąbpocztowy zrobił tutoriala i filozofię tej przeglądarki na blogu albo wiki. To w tedy było by dużo więcej chętnych.

Gołąbpocztowy

Zrobię zrobię, ale dopiero w poniedziałek bo weekendy zostawiam dla mojej połóweczki i nie mam czasu na inne rzeczy :)


Tobas

To jak już chcesz coś robić to może od razu wrapper - każdy by wtedy liczył  :p_arr:
No i moglibyśmy ogłosić kolejny polski projekt  :)

Gołąbpocztowy

Cytat: Tobas w 03 Grudzień 2011, 16:22
To jak już chcesz coś robić to może od razu wrapper - każdy by wtedy liczył  :p_arr:
No i moglibyśmy ogłosić kolejny polski projekt  :)
Akurat yacy nie nadaje się do boinc bo wymaga stałej komunikacji z innymi peerami. Architektura nie nadaje się do boinc raczej (chociaż można by myśleć). Jeżeli chodzi o wrapper to lepiej zrobić do OSM jak pisałem w innym wątku. Ale sam niestety jestem na to za cienki w uszach i bez pomocy sobie nie poradzę...

Tobas

Nadaje, nadaje - na 100% można zrobić tak jak test4theory - wystawiac virtualna maszyne, ktora bedzie zajmowala sie łączeniem, indexowaniem, crawlowaniem i co tam jeszcze wyczynia - ma to duzo plusow - m. innymi taki, że nie zaśmieca sie własnego kompa.
IMO z technicznego punktu widzenia - łatwe do wykonania wystarczy postawic debiana minimala z yacy - ot co i naliczac punkty tak jak w test4theory za 24godzinne probki - nie trzeba wyważać otwartych drzwi - Panowie z Cern już to zrobili ;)

Gołąbpocztowy

Cytat: Tobas w 03 Grudzień 2011, 18:01
Nadaje, nadaje - na 100% można zrobić tak jak test4theory - wystawiac virtualna maszyne, ktora bedzie zajmowala sie łączeniem, indexowaniem, crawlowaniem i co tam jeszcze wyczynia - ma to duzo plusow - m. innymi taki, że nie zaśmieca sie własnego kompa.
IMO z technicznego punktu widzenia - łatwe do wykonania wystarczy postawic debiana minimala z yacy - ot co i naliczac punkty tak jak w test4theory za 24godzinne probki - nie trzeba wyważać otwartych drzwi - Panowie z Cern już to zrobili ;)
Widzę, że trafiłem na odpowiednią osobę ;) Pojutrze wieczorem będę wolny i możemy myśleć, a że od myślenia nic nie ma to możemy również zarwać jakąś nockę i coś zrobić  :boing:

Troll81

Pomysł ciekawy. i jest juz kilka takich projektów. Surveil, Dynaping (nieczynny) FreeHal