یک تریلیون صفحه وب در سایت Internet Archive بایگانی شدند

وب‌سایت Internet Archive با آرشیو یک تریلیون صفحه‌ی وب به دستاوری خیره‌کننده رسید.رسانیکامنبع: https://rasanika.com

وب‌سایت Internet Archive به‌عنوان یکی از مهم‌ترین پروژه‌های کتابخانه‌ای در فضای سایبری، به دستاوردی رسیده که تصورش دشوار است. این سازمان غیرانتفاعی پس از نزدیک به ۳۰ سال تلاش شبانه‌روزی، توانست «یک تریلیون» صفحه‌ی وب را ذخیره کند.

اتفاق یادشده نقطه‌عطفی در تاریخچه‌ی تلاش‌ها برای حفظ اسناد دیجیتال محسوب می‌شود؛ به‌ویژه در دورانی که اینترنت هم به بخشی جدایی‌ناپذیر از زندگی روزمره تبدیل شده و هم جست‌وجو در آن به‌طور فزاینده‌ای دشوار و غیرقابل‌اعتماد است.

شبکه‌ی جهانی وب مزایای زیادی دارد، اما «ماندگاری» هرگز یکی از آن‌ها نبوده است. محتوای دیجیتال ذاتا ماهیتی گذرا دارد و معمولا تا زمانی دوام می‌آورد که شخصی مایل به حفظش باشد.

برای مثال، در سال ۲۰۱۹ پلتفرم مای‌اسپیس (یکی از محبوب‌ترین شبکه‌های اجتماعی اولیه) اعلام کرد که خطای پیش‌بینی‌نشده در انتقال سرور، تمام فایل‌های آپلودی کاربران را بین سال‌های ۲۰۰۳ تا ۲۰۱۵ به‌طور تصادفی پاک کرد. در پی این اتفاق، تخمین زده می‌شود که حدود ۵۰ میلیون آهنگ از ۱۴ میلیون هنرمند در یک شب ناپدید شد.

Internet Archive دقیقا برای جلوگیری از چنین حوادثی تلاش می‌کند. سازمان یادشده از سال ۱۹۹۶ با هدف ایجاد «سابقه‌ای دائمی از تکامل اینترنت»، عمدتا با استفاده از خزنده‌های وب هر وب‌سایت در دسترس عموم را که پیدا می‌کرد، ذخیره می‌ساخت.

داوطلبان نیز فایل‌های خود را از جمله نشریات چاپی، موسیقی‌های کمیاب و سایر فرمت‌های رسانه‌ای در پلتفرم مذکور آپلود می‌کنند. Internet Archive پس از گذشت نزدیک به سه دهه، بیش از ۸۶۶ میلیارد صفحه‌ی وب، ۴۱ میلیون متن و میلیون‌ها شکل دیگر از محتوای دیجیتال را بایگانی کرده است.

در مجموع، روزانه حدود ۵۰۰ میلیون وب‌سایت جدید به این پایگاه اضافه می‌شود که تاکنون حجمی معادل ۱۰۰ هزار ترابایت اطلاعات را در بر گرفته است. برای درک بهتر، این حجم از داده برابر با پرکردن ظرفیت کامل ۵۰ هزار دستگاه از گران‌ترین مدل‌های آیفون در بازار فعلی است.

Internet Archive با وجود اهمیت حیاتی برای آرشیویست‌ها، روزنامه‌نگاران، محققان دانشگاهی و حتی بازدیدکنندگان کنجکاو، با فشارهای فزاینده‌ای از سوی دنیای در حال تغییر وب مواجه است. شرکت‌های فناوری برای آموزش سیستم‌های هوش مصنوعی مبتنی‌بر مدل‌های زبانی بزرگ (LLM)، در حال جست‌وجوی آنلاین برای یافتن دیتاست‌های جدید هستند؛ آن‌هم اغلب تحت شرایط حقوقی بسیار مبهم.

در نتیجه‌ی این شرایط، بسیاری از رسانه‌های بزرگ از جمله نیویورک تایمز، گاردین و یواس‌ای تودی برای محافظت از محتوای خود در برابر هوش مصنوعی، مطالب جدیدشان را از دسترس پلتفرم بایگانی دور نگه می‌دارند.

در نبود چارچوب قانونی مشخص برای جبران زحمات شرکت‌ها و نویسندگان، چنین رویکردی کاملا قابل درک به نظر می‌رسد؛ اما همزمان حفظ ظریف‌ترین اکوسیستم اطلاعاتی در تاریخ بشر را نیز بسیار دشوارتر می‌کند.