معماري موتورهاي جستجوگر

 

معماري موتورهاي جستجوگر

 مقدمه:

از آنجائي كه هر پايگاه مي‌تواند بسياري از صفحات وب را در خود داشته باشد اين باعث مي‌شود كه تعداد بيشتري از صفحات وب بوجود آيد. در حاليكه كيفيت بسياري از صفحات ممكن است مورد سؤال باشد و نگهداري بسياري از صفحات پراكنده است. اما صفحات معتبري هم وجود دارد كه اطلاعات با ارزشي در مورد بسياري از موضوعات ارائه مي‌دهد. علاوه بر آن انتخاب موتورهاي جستجوي مناسب ممكن است براي استفاده‌كنندگان عمومي به علت رويه‌هاي پيچيده، مهمتر باشد.

تعريف :

موتورهاي جستجوگر به برنامه اي اطلاق ميشود كه موضوعات مورد نظر كاربران را در قالب كلمات كليدي ، درون اسناد و اطلاعات موجود در اينترنت كاوش كرده و نتايج بدست آمده را در قالب آدرس محل ذخيره عرضه مي نمايد.

برخي از موتورها صرفا براي يك سايت خاصي طراحي و پياده ميشوند مثل سايتهاي فروش كالا از طريق اينترنت كه داراي يك موتور انحصاري هستند كه فقط در همان وب سايت كاوش ميكنند ولي موتورهاي جستجوي عمومي محتويات وبسايتهاي موجود در كل اينترنت را پيمايش و جستجو ميكنند .


معماري كلي موتورهاي جستجو :

درون كاو :

تمام موتورهاي جستجو به ماجولي عملياتي به نام درون كاو متكي هستند درون كاو پهنه وسيع وب را يطور زمان بندي شده پيمايش ميكند و به جمع آوري صفحات بي شمار ذخيره شده در گوشه و كنار وب ميپردازد كه از تعداد قابل توجهي برنامه كوچك تشكيل شده كه هر كدام با هسته يك وب سايت خاص آغاز ميكنند اين برنامه هاي كوچك درون كاوي خود را تحت كنترل ماجول آغاز و بر اساس استراتژي اين ماجول كنترلي به پايان ميبرند .

كنترل درون كاو :

 اين ماجول موظف است كه مجموعه برنامه هاي درون كاوي را با تحويل (          )  مورد نظر راه اندازي كرده و بكار درون كاوي بگمارد . ماجول كنترل درون كاو تعيين ميكند كه پس از دريافت صفحه جاري كدام صفحه بايد دريافت چرا كه يك صفحه واحد صفحات متعددي لينك دارد و ترتيب اين لينكها بر عهده ماجول كنترل درون كاو ميباشد . انباره صفحات :

صفحاتي كه توسط ماجول درون كاو از گستره جهاني وب استخراج مي شوند در يك بانك اطلاعاتي به نام انباره صفحات ذخيرهميشوند تا به منظور شاخص دهي و تحليل محتوائي ، در اختيار ديگر ماجولها قراربگيرند  در اين الگوريتم عمليات استخراج صفحات از يك سايت وب با آدرس خاص آغاز و به تمام آدرسهاي ديگري نيز كه در ايين صفحات درج شده اند تسري مي يابد . در گونه ديگري از الگوريتمهاي كنترل درون كاو ، استخراج صفحات بين حوزه هاي سطح بالا محدود ميماند .

ماجول شاخص دهي :

اين ماجول يكيايك صفحات موجود در انباره صفحات را مرور كرده و كلمات در آنها را پس از استخراج به همراه       (         )مربوطه در يك جدول بسيار عظيم درج ميكند در نتيجه مشخص مي شود كه هر كلمه در كدام صفحه ، با چه آدرسي و در كجاي صفحه ظاهر شود .   يكي ديگر از خروجي هاي ماجول شاخص دهي بانك اطلاعاتي شاخص ساختاري است كه چگونگي پيوند خوردن صفحات به يكديگر را منعكس ميكند .

ماجول درون كاوي صفحات وب :

 وظيفه دارد صفحات وب را براي تحليل و ايجاد شاخص در روالي منظم سريع و جامع استخراج كرده و تحويل انباره صفحات بدهد و. اين ماجول با يك مجموعه از (            ) ها به نام  (     ) آغاز به كار ميكند كه در قالبي منايب درون يك صف اولويت دار قرار ميگيرند . انتخاب صفحات يكي از مهمترين چالشهاي درون كاو وب اين است كه كدامين صفحه از اهميت و اولويت بيشتري براي دريافت و ذخيره برخوردار است كه معيارهاي زير مناسب تر هستند .       الف ) معيار مبتني بر گرايشات كاربران

ب )    معيار مبتني بر شهرت صفحات                                 ج ) معيار مبتني بر محل قرار گرفتن صفحات

انواع موتور هاي جستجو  :

موتورهاي جستجو به سه دسته كلي تقسيم مي‌شوند. موتورهاي جستجوي پيمايشي و موتورهاي جستجوي مبتني بر فهرست و موتورهاي جستجوي تركيبي با نتايج مختلط.

موتورهاي جستجوي پيمايشي:    

موتورهاي جستجوي پيمايشي مانند گوگل ليست خود را بصورت خودكار تشكيل مي‌دهند. آنها وب را پيمايش كرده و سپس كاربران آنچه را كه مي‌خواهند از ميانشان جستجو مي‌كنند. اگر شما در صفحه وب خود تغييراتي را اعمال نماييد، موتورهاي جستجوي پيمايشي آنها را به خودي خود مي‌يابند و سپس اين تغييرات ليست خواهند شد. عنوان، متن و ديگر عناصر صفحه، همگي شامل اين ليست خواهند بود.

موتورهاي جستجوي مبتني بر فهرست :

يك فهرست تكميل دستي مانند يك Open Directory مثل Dmozوابسته به كاربراني است كه آنرا تكميل مي‌كنند. شما صفحه مورد نظر را به همراه توضيحي مختصر در فهرست ثبت مي‌كنيد يا اين كار توسط ويراستارهايي كه براي آن فهرست در نظر گرفته شده انجام مي‌شود.
عمل جستجو در اين حالت تنها بر روي توضيحات ثبت شده صورت مي‌گيرد و در صورت تغيير روي صفحه وب، روي فهرست تغييري بوجود نخواهد آورد. چيزهايي كه براي بهبود يك فهرست‌بندي در يك موتور جستجو مفيد هستند، تاثيري بر بهبود فهرست‌بندي يك دايركتوري ندارند. تنها استثناء اين است كه يك سايت خوب با پايگاه داده‌اي با محتواي خوب شانس بيشتري به نسبت يك سايت با پايگاه داده ضعيف دارد.

موتورهاي جستجوي تركيبي با نتايج مختلط :
به موتورهايي اطلاق مي‌شود كه هر دو حالت را در كنار هم نمايش مي‌دهند. غالبا، يك موتور جستوي تركيبي در صورت نمايش نتيجه جستجو از هر يك از دسته‌هاي فوق، نتايج حاصل از دسته ديگر را هم مورد توجه قرار مي‌دهد. مثلا موتور جستجوي MSNبيشتر نتايج حاصل از فهرستهاي تكميل دستي را نشان مي‌دهد اما در كنار آن نيم نگاهي هم به نتايج حاصل از جستجوي پيمايشي دارد.

عوامل مهم در انتخاب موتور جستجو :
حجم بانك اطلاعاتي موتور جستجو و تعداد صفحات مرور شده توسط آن

به روز بودن بانك اطلاعاتي
سرعت برگرداندن نتايج جستجو
تعداد سرويس دهنده هاي آن در شبكه اينترنت

نحوه اولويت بندي نتايج حاصله و ارتباط آنها با يكديگر

پشتيباني امنيت در پايگاهها
دسته بندي موضوعي وامكان جستجودرهردسته
جستجو در خدمات اينترنت شامل وب ، گروههاي خبري،...
پشتيباني زبانهاي مختلف وتبديل زبانهابه يكديگر
جستجو براساس تاريخ.نوع فايل مانند تصوير
جستجو در مكان خاصي از صفحه وب

انباره ذخيره سازي صفحات ، رتبه بندي و تحليل لينك

صفحاتي را كه ماجول درون كاو استخراج ميكند درون يك سيستم ذخيره سازي بسيار عظيم درج ميشوند تا براي شاخص دهي، رتبه بندي و عمليات پردازشي ديگر در اختيار باشند ، حجم  بيش از اندازه و ناهمگوني بسيار زياد اسناد  و صفحات دريافتي از وب باعث شده كه انباره ذخيره سازي صفحات وب شباهت چنداني با پايگاههاي اطلاعاتي رايج نداشته باشند البته سيستم ذخيره سازي در انباره صفحات با چالش هائي هم روبرو است كه عبارتند از :

الف : ) گسترش پذيري تا بي نهايت                              ب : ) پشتيباني از دسترسي همزمان و دوگانه

ج : ) بهنگام سازي عظيم و توده اي                              د : ) صفحات منسوخ

 

 

 استخراج شاخص و عوامل رتبه بندي :

ماجول شاخص دهي و تحليل مجموعه انواع ويژگيها را كه ميتوانند در فرآيند جستجو مفيد باشند از درون صفحات ذخيره شده در انباره بيرون ميكشند و يكي ازنقاط اختلاف موتورهاي جستجو در همين بخش بروز ميكند چرا كه اين نوع شاخصها در ميزان موفقيت عمل جستجو نقش موثري دارد  . بسياري از موتورهاي جستجوي تجاري تلاش ميكنند اين بخش را پنهان نگه دارند ولي آنچه مسلم است هر موتور جستجو شاخصهائي را از درون صفحات وب استخراج ميكند  :

شاخص لينك :

براي ساختن شاخص لينك صفحات موجود در انباره در قالب يك گراف جهت دار مدل ميشوند . گره هاي اين گراف ،  صفحات وب هستند و لبه هاي گراف ( كمان ها ) ارجاعاتي است كه صفحات به يكديگر دارند . از آنجا كه پياده سازي و پردازش گراف بسيار دارد لذا مختصرسازي و پياده سازي كارآمد الگوريتم هاي پرذازش گراف اهميت فوق العاده اي خواهد داشت  . ( ساختن گرافي لا ميليون ها گره و مديريت آن يكي از چالش هاي بزرگ مهندسين نرم افزار است و نياز به بستر سخت افزاري  و نرم افزاري بسيار عظيمي دارد )

شاخص متني :

اگر چه شاخص لينك كيفيت جستجو و ميزان مرتبط بودن صفحات به ذهنيت كابران را افزايش خواهد داد ولي آنچه مسلم است به نظر ميرسد استخراج شاخص غني از تمام كلمات كليدي مندرج در يطن صفحات وب است چرا كه بنياديترين عمل در فرآيند جستجو يافتن صفحاتي است كه كلمات مورد جستجوي كاربران در درون انها يافت مي شود ( شاخص متني عبارتست از يك پايگاه اطلاعاتي از كل كلمات كليدي ممكن در ادبيات هر زبان به همراه انديس صفحاتي كه اين كلمات درون آنها پيدا شده است )البته براي قدرتمند كردن موتور جستجو به همراه آيتمهاي ( واژه شناسه صفحه و موقعيت ) ميتوان اطلاعات ديگري را هم در خصوص چگونگي ظهور واژه در صفحه مورد نظر ، استخراج و در كنار آيتمهاي فوق درج نمود .

 

 

عوامل رتبه دهي:

ماجول رتبه دهي ماجولي در تمام موتورهاي جستجو است كه پس از غربال كردن نتايج بي ارزش يا كم ارزش آنها را بر حسب اهميت شان رتبه بندي و مرتب ميكند تا آنچه را كه كاربر دريافت ميدارد ، فهرست مرتب شده اي از صفحات مرتبط با كليد واژه هايش باشد . كه البته براي اين كار از دو دسته كاملا متفاوت از اطلاعات بهره ميگيرد كه شامل :   الف ) اطلاعات مندرج در بطن صفحه            ب ) اطلاعات مندرج در بيرون از صفحه

براي تشريح ماهيت اطلاعات فوق مثالي ميزنيم كاربر با وارد كردن كلمه دنبال اطلاعاتي در مورد آن ميگردد ميليونها صفحه وب حاوي كلمات كليدي فوق از طريق فايل شاخص بدست مي آيد . براي رتبه دهي ميتوان اطلاعات زير را از بطن هر صفحه استخراج كرد :

الف ) دفعات تكرار كلمات كليدي                                        ب ) ترتيب و مجاورت كلمات كليدي

ج ) محل درج كلمات كليدي                                               د ) درج كلمات كليدي درون آدرس صفحه

ه ) پررنگ بودن كلمات كليدي و اندازه قلم                         و ) بهره گيري از برچسبهاي توصيفي متا و الت تگ

و براي رتبه دهي اطلاعاتي را كه در بيرون از صفحه ميتوانند مفيد باشند عبارتند از  :

الف ) تعداد ارجاعاتي كه به هر صفحه داده شده                 ب ) رده بندي جهاني وب سايت حاوي صفحات

برچسبهاي توصيفي متن :

 ام تي دي   نوعي از برچسبهاي استاندارد و شناخته شده اچ تي ام ال هستند كه كاربران ميتوانند به كمك آنها يك خلاصه كوچك از محتواي سايت را براي هر درون كاو فراهم نموده تا طبقه بندي و شاخص بندي آنها بطور صحيح و اصولي تر انجام پذيرد اين نوع برچسبها در درون كد منبع صفحات مخفي هستند و بازديدكنندگان آنها را نمي بينند . بسياري از موتورهاي جستجو قادرند محتواي اين نوع برچسبها را در الگوريتمهاي شاخص بندي و رتبه دهي خود مورد استفاده قرار دهند و همچنين كاربرد صحيح اين برچسبها ميتواند جايگاه يك صفحه وب را در رتبه بندي بسياري از موتورهاي جستجوي مشهور بهبود ببخشد .

اطلاعاتي كه در اين نوع برچسب در صفحه وب وارد شود عبارتند از :

الف : ) مشخص نمودن كلمات كليدي مرتبط با محتواي صفحه          ب : ) توصيف كوتاهي از محتواي صفحه       

د : ) تعيين تاريخ تازه سازي مجدد صفحه       ج : ) مشخص نمودن تاريخ آخرين ويرايش صفحه                      

نتيجه :

عوامل بسياري ممكن است براي موفقيت يك جستجو مشاركت كنند. درك صحيح از تقاضاي جستجو، استراتژي جستجو، پايگاه اطلاعاتي، موتور كاوش، و قضاوت ميزان ارتباط بوسيلهء جستجوگران. در اين تحقيق تعدادي از اين معيارها كنترل شده بودند بنحوي كه تفاوت موتورهاي كاوش قابل مشاهده بود. موتورهاي كاوش از نظر اندازه، محتواي پايگاه اطلاعاتي‌شان، خط‌مشي‌هاي نمايه‌سازيشان، كنترل كيفيت، شيوه‌هاي بازيابي و ارائه نتايج جستجو متفاوتند.

 برخي از آنها بدلايل تجاري و امنيتي سعي ميكنن الگوريتمهاي دروني شان را پنهان نگه دارند . اما با تمام اين ادعاها موتورهاي جستجو نتونسته ان محبوبيت عمومي كسب كنن و بسياري از متخصصين اعتقاد دارند اغلب اين ادعاها واهيه. با توجه به مطالب عرضه شده انتقادهائي را كه به موتورهاي جستجو وارد شده را ميشه به طور خلاصه بيان نمود .

1 زمان پاسخگوئي موتورها طولانيه و به نسبتي كه فرآيند جستجو رو كند تر كرده اند نتونسته اند نتايج بهتري رو ارائه كنن .

2 دليلي نداره كه ادغام و رتبه بندي مجدد ف نتايجي رو كه هر كدام به روش خاصي رتبه دهي شدن ، نتيجه بهتري به بار بياره .

با اين حال گوگل ادعا ميكنه كه پنج نتيجه اول عرضه شده در پاسخ به يك جستجو ، كاربرش رو به سند دلخواهش ميرسونه .

برای دریافت پاورپوینت این مقاله با مدیر وبلاگ تماس بگیرید .

 


مطالب مشابه :


مقاله اي در مورد طراحي دال دوطرفه (1.4 مگا بايت) مقاله بصورت پاورپوينت مي باشد

بانك اطلاعات ساختمان پايگاه اطلاع رساني معماري و شهرسازي مقاله بصورت پاورپوينت است




فايل پاورپويت طراحي يک پل

اسلايد هاي پاورپوينت پايگاه خبري مسكن و معماري مقالات دانشجويي بانك سايتهاي




دانلود رايگان بيش از ۱۵۰ قالب پاورپوينت جذاب و حرفه‌اي

دانلود رايگان بيش از ۱۵۰ قالب پاورپوينت جذاب و حرفه‌اي بانك اطلاعات شركت معماري




معماري موتورهاي جستجوگر

معماري كلي كه توسط ماجول درون كاو از گستره جهاني وب استخراج مي شوند در يك بانك پاورپوينت.




فهرست مطالب: كارآفريني

كارآموزي روزانه معماري در دفتر كارآموزي حسابداري بانك پاورپوينت اداره ثبت اسناد




عناوین روش تحقيق و پايان نامه جديد سایت

روش تحقيق بررسي روابط مشترك معماري و خدمات بانك كشاورزي پاورپوينت روش تحقيق




پایان نامه

پايان نامه معماري مركز همايشهاي پايان نامه بانك سايت در موتورهاي جستجو با پاورپوينت . 45.




پایان نامه

- بيش از ۳۰۰۰ فايل هاي آموزشي پاورپوينت فارسي تطبيقي ، حقوق جزايي ، معماري و … بانك پروژه




سایتهای حرفه ای مهندسی ساختمان

بانك اطلاعاتی صنعت ساختمان، تاسیسات اسلايد هاي پاورپوينت وبسايت تخصصي عمران و معماري




برچسب :