اندازه‌ی وب

جستجو کاری بس سخت و دشوار است و چه کاری سخت‌تر از جستجو میان انبوهی نوشته،‌میان انبوهی از دست نوشته‌ها و خاطرات،‌ میان انبوهی از مقالات علمی و چه کاری سخت‌تر از تفکیک این موضوعات از یکدیگر!‌

We knew the web was big…

ما جمله‌ی وب بزرگ است را مدت زمان زیادی است که عینیت بخشیده‌ایم. اولین فهرست گوگل در سال ۱۹۸۸، شامل ۲۶ میلیون صفحه بود و تا سال ۲۰۰۰ به یک میلیارد رسید. از ۸ سال پیش تاکنون اعداد بسیار بزرگی را در مورد چگونگی رشد محتوا شاهد بوده‌ایم. اخیرا حتی مهندسان جستجوی گوگل نیز از رشد عظیم محتوا در این روزهای اخیر به حیرت فرو رفته‌اند – زمانی که سیستم‌های ما در حال پردازش لینک‌های موجود در وب، محتوای جدیدی را می‌یابند، کانتر جدیدی می‌اندازند: ۱ تریلییون یا همان ۱۰۰۰ میلیارد (۱,۰۰۰,۰۰۰,۰۰۰,۰۰۰) آدرس واحد (URLs) در وب به طور همزمان!!
چگونه همه‌ی‌صفحات را پیدا می‌کنیم؟‌ ما اینکار را به کمک مجموعه‌ای ازصفحات اولیه (well-connected)‌ شروع و هر کدام از لینک‌های موجود به صفحات جدید درون آنها را دنبال می‌کنیم. سپس لینک‌های موجود در آن صفحات جدید زا نیز که خود به صفحه‌ای جدید اشاره می‌کنند را نیز دنبال می‌کنیم و سپس به همین ترتیب صفحات بیشتر و بیشتر، تا لیستی عظیم از لینک‌ها را در اختیار داشته باشیم. در حقیفت ما بیش از ۱ تریلییون لینک منحصربه‌فرد پیدا کرده‌ایم، اما همه‌ی آنها به صفحات وب یکتایی ختم نمی‌شوند. تعداد زیادی از صفحات با محتوای کاملا یکسان دارای چندین آدرس اینترنتی (URL) هستند و یا آدرس‌هایی هستند که به صورت اتوماتیک از روی محتواهای یکسان ساخته می‌شوند. حتی بعد از حذف چنین آدرس‌هایی، باز شاهد ۱ تریلییون آدرس واحد هستیم، شمار صفحات وبی که هر روزه تولید می‌شود در حال رشد صعودی بوده و اکنون به چندین میلیارد در روز بالغ می‌گردد.
حال سوال اینست که چه تعداد از این صفحات وب وافعا شامل محتوا می‌باشد؟ ما جواب را نمی‌دانیم!‌ ما زمان کافی برای جستجوی همه‌ی آنها را نداریم! اگر بخواهیم دقیق شویم، شمار صفحاتی که هر روزه تولید می‌شوند،‌بی‌نهایت می‌باشد برای مثال،‌ تقویم‌های آنلاین ممکن است شامل لینک روز فردا باشند و ما باید تا ابد چنین لینک‌هایی را دنبال کنیم و بنابراین هر روز صفحات جدید پیدا کنیم. البته ما چنین کاری انجام نمی‌دهیم زیرا آشکار هست که چنین لینک‌هایی غیر مفید هستند. اما این مثال تا حد زیادی نشان می‌دهد که اندازه واقعی وب بستگی به تعریف شما از صفحات مفید وب دارد و به همین دلیل هیچ جواب دقیقی در مورد اندازه‌ی واقعی وب نمی‌توان ارائه کرد.

ما تمام چند تریلییون صفحه وب را فهرست نمی‌کنیم — بسیاری از انها مطالبی شبیه به هم دارند و یا مطالبی هستند که هر روزه به صورت اتوماتیک تولید می‌شوند مانند همان لینک‌هایی که هر روزه در یک تقویم ایجاد می‌شود و فایده‌ی چندانی هم ندارند.

امروزه گوگل برای چند بار در طول یک روز صفحات به روز شده را جمع‌آوری و در حقیقت کل وب را دانلود می‌کند و چندین بار نتایج بدست آمده از گراف لینک‌های موجود در هر سایت را پردازش می‌کند. گراف این ۱ تریلییون آدرس وب (URLs) شبیه به نقشه‌ای می‌ماند که شامل یک تریلییون چهارراه باشد. بنابراین ما چندین بار در طی روز محاسبات کاملی معادل با کشف کامل تمام تقاطع‌های موجود بر روی جاده‌های آمریکا را انجام می‌دهیم! البته به جز اینکه نقشه باید ۵۰ هزار برابر بزرگتر از نقشه آمریکا باشد!


منتشر شده

در

توسط

برچسب‌ها:

دیدگاه‌ها

  1. sinac نیم‌رخ

    جالب آنالیز کردی، فقط یه سوال اساسی برام پیش اومده، واقعا گوگل هرروز کل وب را دانلود میکند و بعد آنرا آنالیز میکند؟؟؟؟
    من دیزاینر سایت هستم، و اینرا که میگویم خود تجربه کرده ام،
    شما ابتدا یک وب بساز و یه مطلب در آن بنویس بعد به روش خودتان و با استفاده از تجربیات دیگران سعی کن تا آن مطلب در گوگل بعنوان نتیجه جستجو آورده شود (به زبان ساده گوگل مطلب شما را آدم حساب کند!) حال مطلبت را از روی وب پاک کن. حال با جستجوی مجدد این مطلب در گوگل متوجه خواهی شد که همچنان گوگل لینک شما را آدم حساب کرده و حذف نکرده است. پس نیتجه میگیریم که گوگل تمام وب را دانلود نمیکند بلکه بدنبال مطالب جدید میگردد و آنها را دانلود میکند. وب شما که مطلب ذکر شده را در آن نوشته بودید ممکن است هرماه یکبار توسط گوگل دانلود شود نه هر روز.
    دوست گرامی من از وب شما خوشم آمده آیا حاضر به تبادل لینک هستید؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *