Jak ustosunkowujecie się do projektów które chciałyby na waszych komputerach przechowywać duże ilości informacji (dziesiąt, set gigabajtów)? Czy wzięlibyście udział w takim projekcie jeżeli robiłby on coś co wam się przydaje?
Dzięki za odpowiedzi
Mógłby zajechać dysk a ściągnąć setki GB na dysk by potrwało. Ale jeśli robiłby coś co mi się przyda to byłbym skłonny wziąć udział.
Z tego co wiem do takich projektów już byly przymiarki, ale na razie nic oficjalnie nie ruszyło. Miałyby między innymi wspierac np. badania naukowe gdzie potrzeba przechowywac ogromne ilosci danych - po prostu taki 'distributed RAID'. O zajechaniu dysku raczej w takim wypadku nie ma mowy, ale zapchanie łącza (zwłaszcza uploadu, którego nigdy za wiele) jest bardziej realne.
Ja bym się dołączył. Pozostaje tylko pytanie o przydatność takiego przechowywania. Na ilu kompach jednocześnie musiałbyś umieścić dany plik by mieć pewność jego dostępności dla naukowców i by zasysanie go przez naukowców miało odpowiednie tempo??
Ja chętnie. Szybkość podejrzewam nie była by problemem, ale łącza + ilość "kopi" tego samego fragmentu ... Trochę marnotrawieni miejsca i przepustowości, szczególnie przy dzisiejszych cenach macierzy.
Zgadzam się z przedmówcą.... zassij 100GB rozsiane po 60000 hostów....
A co to za problem ?
Z torrenta na neostradzie tyle da radę zassać w kilkadziesiąt godzin i jest to ograniczone przepustowością łącza u ściągajęcego.
Przy podobnym protokole dysponując łączem rzędu nawet 20-30Mbit da się to pewnie skrócić do pojedynczych godzin
Cytat: Hani w 12 Styczeń 2010, 23:05
Ja chętnie. Szybkość podejrzewam nie była by problemem, ale łącza + ilość "kopi" tego samego fragmentu ... Trochę marnotrawieni miejsca i przepustowości, szczególnie przy dzisiejszych cenach macierzy.
So, google np. trzyma wszystkie dane x3. Tutaj sądzę, że to również mogłoby się dobrze sprawdzać i być w miarę odporne na awarię i "czasową" dostępność hostów. Szybciej pobrać 100 GB z 6000 hostów niż z jednego ;) Zwłaszcza jak mamy gigabitowe łącze, ale tutaj to jest akurat mało ważne ;p Dzięki za odzew.
najwazniejsze pytanie: czemu pytasz ? :)
Szuka taniego dysku sieciowego na filmy :D
W mojej głowie uknuł się iście szatański pomysł. Kolejny raz korzystałem z archive.org żeby pooglądać co to się zmieniło w przeciągu lat w internecie. Nie dosyć, że działało dość topornie to do tego doszedłem do wniosku, że takich spraw jak archiwizacja kultury nie powinno powierzać się byle jakiej firmie i pomyślałem, że gdy firma padnie wszystko szlag trafi, a za dużo tam jest skarbów :/. Więc dlaczego by nie oddać tego w ręce żoł... eee społeczności ;)
Niestety to nie takie proste jak przechowywanie plików, bo w jakiś sposób musiałbyś zachować kopię strony która wizualnie będzie wyglądać jak oryginał.
Chyba jedyny rozsądny sposób to przechowywanie w postaci plików np. .mht - zawierających kod strony oraz wszelkie obrazki (zauważ, że na archive.org na niektórych stronach praktycznie g.... widać, bo ich zawartość pobierana była często z innych serwerów, które nie istnieją).
W ten sposób nawet jak ktoś za 20 lat otworzy (zakładając, że wtedy jeszcze dzisiejsze języki webowe będą obowiązywać), nadal będzie widział całość, na dodatek wyrenderowaną przez przeglądarkę, a nie jakiś marny screenshot czy coś w tym rodzaju.
Do generowania takiego archiwum należałoby praktycznie zbudować własnego spidera, do tego jeszcze pozostałaby kwestia linkowania poszczególnych podstron ze sobą.
Nie mówiłem, że to jest proste ani nawet, że mam zamiar się za to brać. Taki mój pomysł ;) Oczywiście, że korzystało by z MHTML lub odpowiedniego standardu bo sam tekst to nie ma sensu za bardzo.
Z tym pająkiem do zbierania to sądzę, że byłoby parę maszyn które by indeksowały strony lecz one nie zajmowałyby się archiwizacją tylko rozdzielaniem zadań - tacy supervisiorzy. Tak samo z oglądaniem. Jedna maszyna wie gdzie są strony od 1 do 10000000000000000 następna wie od x do x i przekierowuje ruch. I tak dolatujemy do ostatniego komputera który pokazuje wyniki.
Tylko Chuck Norris tak umie :fright:
Się rozpisałem :] Ale w głowie wszystko mam jak to powinno działać...
Myślę, że akurat w tym przypadku projekt średnio by się sprawdzał - kupa technologii do rozwinięcia we własnym zakresie = masa czasu, do tego prawdopodobnie bardzo duże koszty serwera. Chyba taniej by wyszło zainwestować i stworzyć zwykły serwis archiwizujący strony, utrzymywany z reklam.