یکی دیگر از اجزای موتورهای جستجو ماژول تحلیل مجموعه می باشد. این ماژول کنترل موارد زیر را به عهده دارد:
-
- تمامی صفحات در حال تغییر هستند.
-
- احتمال دارد لینکـی که در یـک صفحـه است هیچ ربطـی به این صفحـه از لحاظ محتوایی نداشـته باشد.
خروجی ماژول تحلیل مجموعه، شاخص سودمندی می باشد که پس از تحلیل کل انباره صفحات بدست می آید. این شاخص ها می توانند متفاوت باشند مانند تعداد تصویر در یک صفحه، تعداد لینک ها یا رتبه اقتصادی وب سایت صاحب آن صفحه و … .
بعد از آنکه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گویی به سوالات کاربران است.
کاربران چند کلمه را در جعبـه جستجـوی[۶۰] وارد می کنند و سپس با فشـردن دکمه اینتر منتـظر پــاسخ
می مانند[۴۷ و ۴۸].
برای پاسخگویـی به درخواست کاربر، ابتـدا تمام صفحـات موجـود در پایگاه داده که به موضـوع جستجـو شده مرتبط هستند، مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آن ها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جستجو به کاربر نمایش می دهد[۴۸].
حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتوانـد پاسخ های مرتـبطی را ارائه کند، یک موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپـنده یک مـوتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد[۵۹].
سیستم رتبه بندی برای پاسخ گویی به سوالات کاربـران، پارامترهای بسـیاری را در نظر می گـیرد تا بتـواند بهترین پاسخ ها را در اختیار آنها قرار دارد. در حال حاضر قـدرتمندترین سـیستم رتبـه بندی را گـوگل در اختیار دارد. برای سهولت در بیان مطالب بعدی هر گاه صحبت از بایگانی به میان می آید، مقصود این است که صفحه تجزیه و تحلیل شده و به انباره موتور جستجوگر وارد می شود[۵۷].
اما کلیاتی در کار بسیاری از موتورهای جستجو مشترک و مشابه است که دانستن آنها خالی از لطف نیست. ماژول رتبه بندی پس از غربال کردن نتایج بی ارزش یا کم ارزش آن ها را بر حسب اهمیتشان رتبه بندی و مرتب می کند تا آنچه را که کاربر دریافت می دارد فهرست مرتب شده ای از صفحات مرتبـط با کلیدواژه هایش باشد.
ماژول رتبه بندی در دو دسته کاملاً متفاوت از اطلاعات بهره می گیرد:
-
- اطلاعات مندرج در درون صفحه
-
- اطلاعات مندرج در بیرون از صفحه وب یعنی درون صفحـات دیگر. این روش، روش موفـقی
است.
ارزش یک صفحه از نظر ماژول رتبه بندی با توجه با اطلاعات مندرج در درون صفحه به عوامل زیر بستگی دارد[۳۲]:
-
- دفعات تکرار کلمات کلیدی
-
- ترتیب و مجاورت کلمات کلیدی
-
- محل درج کلمات کلیدی از لحاظ عنوان پاراگرافی یا متن معمولی
-
- درج کلمات درون آدرس صفحه در url
-
- پر رنگ بودن کلمات کلیدی
-
- بهره گیری از برچسب های توصیفی[۶۱]
-
- بهره گیری از بر چسب alt tag
ارزش یک صفحه از نظر ماژول رتبه بندی با توجه به اطلاعات منـدرج در بیرون از صفحه شامل موارد زیر می باشد[۳۲]:
-
- تعداد ارجاعاتی که به صفحه داده شده است.
-
- رده بنـدی جهـانی وب سایـت حـاوی صفحه از لحـاظ طراحی، تعـداد بازدیـدکننـده، جـذب ترافیک و … .
بیشترین عوامل رتبه بندی بیرون صفحه تعداد ارجاعات و لینـک هایی است که از دیگر صفحات، صفحه مورد نظر را نشانه رفته اند.
۲-۷ یک مثال از نحوه عملکرد موتور جستجو
برای آنکه تصـور درسـتی از نحـوه کار یک موتور جستجوگر داشـته باشیم داستان نامتعارف زیر را بررسی می شود. به طور مثال یک شکارچی تصمیم می گیرد به شکار برود.
کار ایندکسر: او قصد دارد برای شکار به منطقه حفاظت شده ای برود.
کار پروتکل روبوت: ابتدا تمام محدودیت های موجود برای شکار در این منطقه را بررسی می کند:
-
- آیا در این منطقه می توان به شکار پرداخت؟
-
- کدام حیوانات را می توان شکار کرد؟
-
- فرض که شکارچی مجوز شکار یک آهو را از شکاربانی منطقه دریافت می کند.