موتور جستجو چیست و چگونه کار می کند؟

۱۳ بازديد
موتور جستجو چیست و چگونه کار می کند؟
درین مقاله قصد داریم پیشگفتار‌‌ای درباره‌ی طریق فعالیت موتورهای کاوش به شما ارائه دهیم. این فرایندها دربرگیرنده ‌کرال، ایندکس و سکو‌بندی کردن صفحه های و همینطور مفاهیم دیگری در این مورد میباشد. پس با ما همپا باشید تا ببینیم موتورهای کاوش چطور شغل می‌نمایند؟ موتورهای کاوش با ‌کرال کردن صدها میلیارد صفحه با به کارگیری از خزنده‌های اینترنت‌شان، کار می‌نمایند. این خزنده‌های اینترنت معمولا تحت عنوان ربات‌های موتور کاوش یا این که عنکبوت (spider) شناخته می گردند. یک موتور کاوش با بار گذاری کردن صفحه ها اینترنت و تعقیب کردن پیوند‌ها در‌این صفحه های‌، آن‌ها‌را پیمایش خواهد کرد تا صفحه ها جدیدی که در دسترس می باشد را پیدا نماید. در واقع، موتورهای کاوش، دستگاه پاسخگویی می‌باشند. آنها برای کشف، درک و سازماندهی محتوای موجود در وب به وجود آمده‌اند تا بتوانند مرتبط‌ترین حاصل را به سوالاتی که جستجوگران از آن ها می‎پرسند، ارائه دهند. برای اینکه وبسایت شما در حاصل کاوش آرم داده شود، استارت می بایست محتوای‌تان برای موتورهای کاوش قابل مشاهده باشد. مطلقا اساسی‎ترین بخش معمای بهینه سازی این میباشد: در صورتیکه وبسایت شما پیدا نشود، هیچ راهی برای اکران آن در SERP (ورقه حاصل موتور کاوش) نیست. برای این که ببینیم موتورهای کاوش چطور کار می‌نمایند، می بایست کوشش مهم آن را بازرسی کنیم. موتورهای کاوش از روش سه عملکرد اساسی عمل می‎نمایند: کرال کردن: آحاد صفحه ها اینترنت را کاوش می‌نماید. (کد یا این که محتوای هر URL را که پیدا نماید، آن را کاوش خواهد کرد.) ایندکس کردن: محتوای پیدا گردیده طی پروسه کرالینگ را ذخیره و سازماندهی می‌نماید. وقتی که یک ورقه در ایندکس قرار گرفت، در اکنون ایفا است تا برای سوال های مربوطه، اکران داده گردد.  سئو در مشهد را با ما تجربه کنیدرنکینگ یا این که رتبه‌بندی: برای هر کوئری، بخش‌هایی از محتوا را ارائه می‌نماید که به شایسته ترین وجه به پرسش استفاده کننده جواب بدهد، این بدان معناست که نتایج به ترتیب از مجاورت‌ترین به دورترین جواب، درجه می گیرند.
در این نوشته‌ی علمی با مطالب پایین آشنا می شوید:
کرالینگ موتور کاوش چیست؟
اولین گام برای اینکه بفهمیم موتورهای کاوش چطور فعالیت می‌نمایند، سوژه کرالینگ میباشد. کرالینگ (Crawling)، فرآیندی می باشد که به وسیله خزنده‌های اینترنت موتور کاوش (ربات‌ها یا این که عنکبوت‌ها) برای بازدید و دانلود یک صفحه و حصول پیوند‌های آن به خواسته ‌یافت کردن بقیه صفحه های، به کارگیری می‌شود. در واقع کرال کردن، او‌لین گام ‌برای کشف صفحه های موجود در اینترنت است. از آنجایی که یک رجیستری مرکزی برای همگی صفحه های اینترنت نیست‌، ‌گوگل بایستی دائما صفحات نو را کاوش و ‌آن ها را به لیست صفحه های شناخته گردیده خویش، بیفزاید. ولی برخی از این صفحه های شناخته گردیده‌اند چون ‌گوگل تا قبل از این از ‌آن‌ها بازدید نموده است. زمانی ‌گوگل لینکی از یک ورقه شناخته گردیده به یک صفحه تازه را دنبال می‌نماید‌، بقیه صفحه ها ‌دیسکاور (کشف) می گردند. هنگامی مدیر اینترنت‌سایت، لیستی از صفحه های (نقشه سایت) را برای ‌کرال شدن به وسیله ‌گوگل ارسال می‌نماید‌، بقیه صفحه های ‌دیسکاور می گردند. اگر از یک اینترنت هاست رئیس گردیده مانند وردپرس یا این که Blogger به کارگیری میکنید‌، ممکن است ‌آنها به ‌گوگل بگویند که هر ورقه آپ دیت گردیده یا این که جدیدی را که ساخت میکنید، کاوش نماید. زمانی که ‌گوگل یک URL شیت را ‌دیسکاور می‌نماید‌، از آن برگه بازدید کرده یا این که عبور می‌نماید، تا بفهمد چه چیزی در آن وجود داراست. ‌گوگل کاغذ را ارائه میدهد و متن و محتوای غیرمتنی آن را تجزیه و پژوهش می‌نماید تا تصمیم بگیرد که کجا باید این شیت را در حاصل کاوش نشان بدهد. هرچه ‌گوگل بهتر بتواند تارنما شمارا فهم و شعور نماید‌، خوب می تواند آن را به کسانی که به دنبال محتوای مربوط به وبسایت شما می باشند، علامت بدهد. صفحه ها شناخته گردیده برای موتور کاوش به‌شکل زمان‌‌ای کرال میشوند تا معلوم خواهد شد آیا از واپسین باری که ربات‌ها از آن ورقه بازدید کرده‌اند‌، تغییری در محتوای آن ساخته شده است یا این که نه. در صورتی یک موتور کاوش بعداز ‌کرال کردن یک ورقه‌، تغییرات آن را تشخیص دهد‌، این شاخص را در جواب به‌این تغییرات شناسایی گردیده، آپ دیت می‌نماید.
کرالینک اینترنت چطور عمل می‌نماید؟
موتورهای کاوش از خزنده اینترنت خویش برای ‌دیسکاور کردن و دسترسی به صفحه ها اینترنت به کار گیری می‌نمایند. تک تک کرالرهای موتور کاوش با بارگیری پوشه robots.txt آن‌، که دربردارنده شرایطی درباره صفحات میباشد که به موتورهای کاوش اذن می‌دهند آن صفحات را کرال نمایند. پوشه robots.txt همینطور ممکن است دربردارنده اطلاعاتی در ارتباط نقشه تارنما یا این که به عبارتی تارنما‌مپ باشد. این فولدر دربرگیرنده لیستی از URL‌هایی میباشد که یک اینترنت‎تارنما، میخواهد خزنده‌های موتور کاوش آن‌ها‌را کرال نمایند. خزنده‌های موتور کاوش از یک‌سری الگوریتم و ضابطه برای انتخاب تعداد دفعات بازدید دوباره یک شیت و ایندکس شدن تعداد صفحات در یک وب سایت به کارگیری می‌نمایند. برای مثال‌، برگه‌‌ای که به صورت منظم تغییر و تحول می‌نماید، ممکن میباشد بیشتر از برگه‌‌ای که بندرت آپیدت می‌گردد‌، کرال گردد.
چگونه می‌اقتدار کرالرهای موتور کاوش را شناسایی کرد؟
ربات‌های موتور کاوش که در هم اکنون ‌کرال کردن یک وبسایت میباشند‌، می توانند از روش «رشته برهان مخاطب» یا این که به عبارتی user agent string که هنگام درخواست صفحه ها اینترنت به اینترنت سرور منتقل میگردند‌، شناسایی شوند. در اینجا چندین مثال از رشته‌های ادله استفاده کننده که توسط موتورهای کاوش به کارگیری می شود را به شما معرفی خواهیم کرد:
ادله مخاطب Googlebot
Mozilla / 5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
دلیل کاربرBingbot
Mozilla/5.0 (compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm)
ادله استفاده کننده Baidu
Mozilla/5.0 (compatible; Baiduspider/2.0; +https://www.baidu.com/search/spider.html)
دلیل مخاطب Yandex
Mozilla/5.0 (compatible; YandexBot/3.0; +https://yandex.com/bots)
هر کسی می تواند از user agent یا این که ادله استفاده کننده شبیه موتورهای کاوش به کارگیری نماید. با این هم اکنون‌، نشانی IP که درخواست را اعمال داده می باشد، می تواند پذیرش نماید که‌این درخواست از سوی موتور کاوش آمده است. این فرآیند، DNS reverse lookup نامیده میگردد.
کرال شدن تصاویر و بقیه فایل‌های غیرمتنی
موتورهای کاوش معمولا کارایی می‌نمایند هر URLی که با آن برخورد می‌نمایند‌ را کرال و ایندکس نمایند. با این حالا‌، در صورتی URL از نوع پوشه غیرمتنی مانند تصویر‌، فیلم یا این که فایل صوتی باشد‌، موتورهای کاوش معمولا توانا به خواندن محتوای پوشه به غیر از اسم آن و متادیتای مربوط به آن نخواهند بود. اگرچه ممکن است یک موتور کاوش فقط بتواند داده ها محدودی در امر گونه های فایل‌های غیرمتنی حصول نماید‌، ولی گشوده هم می‌قدرت ‌آن ها را ایندکس یا این که در نتایج کاوش درجه‌بندی کرد و از روش آن، ترافیک بیشتری به دست آورد.
کرال کردن و کسب لینک و پیوند‌ها از صفحه ها
خزنده‌ها با کرال کردن دوباره صفحه ها مو جود که تا قبل از این درباره‌ی ‌آن‌ها داده ها داشته‌‎اند‌، صفحه های تازه را ‌دیسکاور کرده و سپس لینک و پیوند‌های بقیه صفحه ها را برای یافتن URL‌های نو استحصال می‌نمایند. این URL‌های نو به صف ‌صفحاتی که قرار میباشد کرال شوند، اضافه می گردند تا بتوانند در طول دیگری دانلود شوند. از روش این فرایند در لینک‌های فالو، موتورهای کاوش کار کشته به پیدا کردن هر برگه وبی میباشند که در وب مو جود می‌باشد و دست کم از یک ورقه دیگر به آن لینک داده گردیده است.
تا كنون نظري ثبت نشده است
ارسال نظر آزاد است، اما اگر قبلا در رویا بلاگ ثبت نام کرده اید می توانید ابتدا وارد شوید.