جستجو کاری بس سخت و دشوار است و چه کاری سختتر از جستجو میان انبوهی نوشته،میان انبوهی از دست نوشتهها و خاطرات، میان انبوهی از مقالات علمی و چه کاری سختتر از تفکیک این موضوعات از یکدیگر!
ما جملهی وب بزرگ است را مدت زمان زیادی است که عینیت بخشیدهایم. اولین فهرست گوگل در سال 1988، شامل 26 میلیون صفحه بود و تا سال 2000 به یک میلیارد رسید. از 8 سال پیش تاکنون اعداد بسیار بزرگی را در مورد چگونگی رشد محتوا شاهد بودهایم. اخیرا حتی مهندسان جستجوی گوگل نیز از رشد عظیم محتوا در این روزهای اخیر به حیرت فرو رفتهاند – زمانی که سیستمهای ما در حال پردازش لینکهای موجود در وب، محتوای جدیدی را مییابند، کانتر جدیدی میاندازند: 1 تریلییون یا همان 1000 میلیارد (1,000,000,000,000) آدرس واحد (URLs) در وب به طور همزمان!!
چگونه همهيصفحات را پیدا میکنیم؟ ما اینکار را به کمک مجموعهای ازصفحات اولیه (well-connected) شروع و هر کدام از لینکهای موجود به صفحات جدید درون آنها را دنبال میکنیم. سپس لینکهای موجود در آن صفحات جدید زا نیز که خود به صفحهای جدید اشاره میکنند را نیز دنبال میکنیم و سپس به همین ترتیب صفحات بیشتر و بیشتر، تا لیستی عظیم از لینکها را در اختیار داشته باشیم. در حقیفت ما بیش از 1 تریلییون لینک منحصربهفرد پیدا کردهایم، اما همهی آنها به صفحات وب یکتایی ختم نمیشوند. تعداد زیادی از صفحات با محتوای کاملا یکسان دارای چندین آدرس اینترنتی (URL) هستند و یا آدرسهایی هستند که به صورت اتوماتیک از روی محتواهای یکسان ساخته میشوند. حتی بعد از حذف چنین آدرسهایی، باز شاهد 1 تریلییون آدرس واحد هستیم، شمار صفحات وبی که هر روزه تولید میشود در حال رشد صعودی بوده و اکنون به چندین میلیارد در روز بالغ میگردد.
حال سوال اینست که چه تعداد از این صفحات وب وافعا شامل محتوا میباشد؟ ما جواب را نمیدانیم! ما زمان کافی برای جستجوی همهی آنها را نداریم! اگر بخواهیم دقیق شویم، شمار صفحاتی که هر روزه تولید میشوند،بینهایت میباشد برای مثال، تقویمهای آنلاین ممکن است شامل لینک روز فردا باشند و ما باید تا ابد چنین لینکهایی را دنبال کنیم و بنابراین هر روز صفحات جدید پیدا کنیم. البته ما چنین کاری انجام نمیدهیم زیرا آشکار هست که چنین لینکهایی غیر مفید هستند. اما این مثال تا حد زیادی نشان میدهد که اندازه واقعی وب بستگی به تعریف شما از صفحات مفید وب دارد و به همین دلیل هیچ جواب دقیقی در مورد اندازهی واقعی وب نمیتوان ارائه کرد.
ما تمام چند تریلییون صفحه وب را فهرست نمیکنیم — بسیاری از انها مطالبی شبیه به هم دارند و یا مطالبی هستند که هر روزه به صورت اتوماتیک تولید میشوند مانند همان لینکهایی که هر روزه در یک تقویم ایجاد میشود و فایدهی چندانی هم ندارند.
امروزه گوگل برای چند بار در طول یک روز صفحات به روز شده را جمعآوری و در حقیقت کل وب را دانلود میکند و چندین بار نتایج بدست آمده از گراف لینکهای موجود در هر سایت را پردازش میکند. گراف این 1 تریلییون آدرس وب (URLs) شبیه به نقشهای میماند که شامل یک تریلییون چهارراه باشد. بنابراین ما چندین بار در طی روز محاسبات کاملی معادل با کشف کامل تمام تقاطعهای موجود بر روی جادههای آمریکا را انجام میدهیم! البته به جز اینکه نقشه باید 50 هزار برابر بزرگتر از نقشه آمریکا باشد!
دیدگاهتان را بنویسید