Projekty wykorzystujące miejsce na dysku

Zaczęty przez Akira, 12 Styczeń 2010, 00:18

Akira

Jak ustosunkowujecie się do projektów które chciałyby na waszych komputerach przechowywać duże ilości informacji (dziesiąt, set gigabajtów)? Czy wzięlibyście udział w takim projekcie jeżeli robiłby on coś co wam się przydaje?

Dzięki za odpowiedzi

kempler

Mógłby zajechać dysk a ściągnąć setki GB na dysk by potrwało. Ale jeśli robiłby coś co mi się przyda to byłbym skłonny wziąć udział.

Kury Nas pogryzą, Raptory zeżrą....

TJM

Z tego co wiem do takich projektów już byly przymiarki, ale na razie nic oficjalnie nie ruszyło. Miałyby między innymi wspierac np. badania naukowe gdzie potrzeba przechowywac ogromne ilosci danych - po prostu taki 'distributed RAID'. O zajechaniu dysku raczej w takim wypadku nie ma mowy, ale zapchanie łącza (zwłaszcza uploadu, którego nigdy za wiele) jest bardziej realne.

Troll81

Ja bym się dołączył. Pozostaje tylko pytanie o przydatność takiego przechowywania. Na ilu kompach jednocześnie musiałbyś umieścić dany plik by mieć pewność jego dostępności dla naukowców i by zasysanie go przez naukowców miało odpowiednie tempo??

Hani

Ja chętnie. Szybkość podejrzewam nie była by problemem, ale łącza + ilość "kopi" tego samego fragmentu ... Trochę marnotrawieni miejsca i przepustowości, szczególnie przy dzisiejszych cenach macierzy.


Troll81

Zgadzam się z przedmówcą.... zassij 100GB rozsiane po 60000 hostów....

TJM

A co to za problem ?
Z torrenta na neostradzie tyle da radę zassać w kilkadziesiąt godzin i jest to ograniczone przepustowością łącza u ściągajęcego.
Przy podobnym protokole dysponując łączem rzędu nawet 20-30Mbit da się to pewnie skrócić do pojedynczych godzin

Akira

Cytat: Hani w 12 Styczeń 2010, 23:05
Ja chętnie. Szybkość podejrzewam nie była by problemem, ale łącza + ilość "kopi" tego samego fragmentu ... Trochę marnotrawieni miejsca i przepustowości, szczególnie przy dzisiejszych cenach macierzy.
So, google np. trzyma wszystkie dane x3. Tutaj sądzę, że to również mogłoby się dobrze sprawdzać i być w miarę odporne na awarię i "czasową" dostępność hostów. Szybciej pobrać 100 GB z 6000 hostów niż z jednego ;) Zwłaszcza jak mamy gigabitowe łącze, ale tutaj to jest akurat mało ważne ;p Dzięki za odzew.

Tomasz R. Gwiazda

najwazniejsze pytanie: czemu pytasz ? :)

Troll81

Szuka taniego dysku sieciowego na filmy :D

Akira

W mojej głowie uknuł się iście szatański pomysł. Kolejny raz korzystałem z archive.org żeby pooglądać co to się zmieniło w przeciągu lat w internecie. Nie dosyć, że działało dość topornie to do tego doszedłem do wniosku, że takich spraw jak archiwizacja kultury nie powinno powierzać się byle jakiej firmie i pomyślałem, że gdy firma padnie wszystko szlag trafi, a za dużo tam jest skarbów :/. Więc dlaczego by nie oddać tego w ręce żoł... eee społeczności ;)

TJM

Niestety to nie takie proste jak przechowywanie plików, bo w jakiś sposób musiałbyś zachować kopię strony która wizualnie będzie wyglądać jak oryginał.
Chyba jedyny rozsądny sposób to przechowywanie w postaci plików np. .mht - zawierających kod strony oraz wszelkie obrazki (zauważ, że na archive.org na niektórych stronach praktycznie g.... widać, bo ich zawartość pobierana była często z innych serwerów, które nie istnieją).
W ten sposób nawet jak ktoś za 20 lat otworzy (zakładając, że wtedy jeszcze dzisiejsze języki webowe będą obowiązywać), nadal będzie widział całość, na dodatek wyrenderowaną przez przeglądarkę, a nie jakiś marny screenshot czy coś w tym rodzaju.
Do generowania takiego archiwum należałoby praktycznie zbudować własnego spidera, do tego jeszcze pozostałaby kwestia linkowania poszczególnych podstron ze sobą.

Akira

Nie mówiłem, że to jest proste ani nawet, że mam zamiar się za to brać. Taki mój pomysł ;) Oczywiście, że korzystało by z MHTML lub odpowiedniego standardu bo sam tekst to nie ma sensu za bardzo.
Z tym pająkiem do zbierania to sądzę, że byłoby parę maszyn które by indeksowały strony lecz one nie zajmowałyby się archiwizacją tylko rozdzielaniem zadań - tacy supervisiorzy. Tak samo z oglądaniem. Jedna maszyna wie gdzie są strony od 1 do 10000000000000000 następna wie od x do x i przekierowuje ruch. I tak dolatujemy do ostatniego komputera który pokazuje wyniki.

Skret

Tylko Chuck Norris tak umie  :fright:

Akira

Się rozpisałem :] Ale w głowie wszystko mam jak to powinno działać...

TJM

Myślę, że akurat w tym przypadku projekt średnio by się sprawdzał - kupa technologii do rozwinięcia we własnym zakresie = masa czasu, do tego prawdopodobnie bardzo duże koszty serwera. Chyba taniej by wyszło zainwestować i stworzyć zwykły serwis archiwizujący strony, utrzymywany z reklam.