شنبه ۱۷ دی ۰۱ | ۰۹:۵۲ ۲۴ بازديد
موتور جستجو چیست و چگونه کار می کند؟
درین مقاله قصد داریم پیشگفتارای دربارهی طریق فعالیت موتورهای کاوش به شما ارائه دهیم. این فرایندها دربرگیرنده کرال، ایندکس و سکوبندی کردن صفحه های و همینطور مفاهیم دیگری در این مورد میباشد. پس با ما همپا باشید تا ببینیم موتورهای کاوش چطور شغل مینمایند؟ موتورهای کاوش با کرال کردن صدها میلیارد صفحه با به کارگیری از خزندههای اینترنتشان، کار مینمایند. این خزندههای اینترنت معمولا تحت عنوان رباتهای موتور کاوش یا این که عنکبوت (spider) شناخته می گردند. یک موتور کاوش با بار گذاری کردن صفحه ها اینترنت و تعقیب کردن پیوندها دراین صفحه های، آنهارا پیمایش خواهد کرد تا صفحه ها جدیدی که در دسترس می باشد را پیدا نماید. در واقع، موتورهای کاوش، دستگاه پاسخگویی میباشند. آنها برای کشف، درک و سازماندهی محتوای موجود در وب به وجود آمدهاند تا بتوانند مرتبطترین حاصل را به سوالاتی که جستجوگران از آن ها میپرسند، ارائه دهند. برای اینکه وبسایت شما در حاصل کاوش آرم داده شود، استارت می بایست محتوایتان برای موتورهای کاوش قابل مشاهده باشد. مطلقا اساسیترین بخش معمای بهینه سازی این میباشد: در صورتیکه وبسایت شما پیدا نشود، هیچ راهی برای اکران آن در SERP (ورقه حاصل موتور کاوش) نیست. برای این که ببینیم موتورهای کاوش چطور کار مینمایند، می بایست کوشش مهم آن را بازرسی کنیم. موتورهای کاوش از روش سه عملکرد اساسی عمل مینمایند: کرال کردن: آحاد صفحه ها اینترنت را کاوش مینماید. (کد یا این که محتوای هر URL را که پیدا نماید، آن را کاوش خواهد کرد.) ایندکس کردن: محتوای پیدا گردیده طی پروسه کرالینگ را ذخیره و سازماندهی مینماید. وقتی که یک ورقه در ایندکس قرار گرفت، در اکنون ایفا است تا برای سوال های مربوطه، اکران داده گردد. سئو در مشهد را با ما تجربه کنیدرنکینگ یا این که رتبهبندی: برای هر کوئری، بخشهایی از محتوا را ارائه مینماید که به شایسته ترین وجه به پرسش استفاده کننده جواب بدهد، این بدان معناست که نتایج به ترتیب از مجاورتترین به دورترین جواب، درجه می گیرند.
در این نوشتهی علمی با مطالب پایین آشنا می شوید:
کرالینگ موتور کاوش چیست؟
اولین گام برای اینکه بفهمیم موتورهای کاوش چطور فعالیت مینمایند، سوژه کرالینگ میباشد. کرالینگ (Crawling)، فرآیندی می باشد که به وسیله خزندههای اینترنت موتور کاوش (رباتها یا این که عنکبوتها) برای بازدید و دانلود یک صفحه و حصول پیوندهای آن به خواسته یافت کردن بقیه صفحه های، به کارگیری میشود. در واقع کرال کردن، اولین گام برای کشف صفحه های موجود در اینترنت است. از آنجایی که یک رجیستری مرکزی برای همگی صفحه های اینترنت نیست، گوگل بایستی دائما صفحات نو را کاوش و آن ها را به لیست صفحه های شناخته گردیده خویش، بیفزاید. ولی برخی از این صفحه های شناخته گردیدهاند چون گوگل تا قبل از این از آنها بازدید نموده است. زمانی گوگل لینکی از یک ورقه شناخته گردیده به یک صفحه تازه را دنبال مینماید، بقیه صفحه ها دیسکاور (کشف) می گردند. هنگامی مدیر اینترنتسایت، لیستی از صفحه های (نقشه سایت) را برای کرال شدن به وسیله گوگل ارسال مینماید، بقیه صفحه های دیسکاور می گردند. اگر از یک اینترنت هاست رئیس گردیده مانند وردپرس یا این که Blogger به کارگیری میکنید، ممکن است آنها به گوگل بگویند که هر ورقه آپ دیت گردیده یا این که جدیدی را که ساخت میکنید، کاوش نماید. زمانی که گوگل یک URL شیت را دیسکاور مینماید، از آن برگه بازدید کرده یا این که عبور مینماید، تا بفهمد چه چیزی در آن وجود داراست. گوگل کاغذ را ارائه میدهد و متن و محتوای غیرمتنی آن را تجزیه و پژوهش مینماید تا تصمیم بگیرد که کجا باید این شیت را در حاصل کاوش نشان بدهد. هرچه گوگل بهتر بتواند تارنما شمارا فهم و شعور نماید، خوب می تواند آن را به کسانی که به دنبال محتوای مربوط به وبسایت شما می باشند، علامت بدهد. صفحه ها شناخته گردیده برای موتور کاوش بهشکل زمانای کرال میشوند تا معلوم خواهد شد آیا از واپسین باری که رباتها از آن ورقه بازدید کردهاند، تغییری در محتوای آن ساخته شده است یا این که نه. در صورتی یک موتور کاوش بعداز کرال کردن یک ورقه، تغییرات آن را تشخیص دهد، این شاخص را در جواب بهاین تغییرات شناسایی گردیده، آپ دیت مینماید.
کرالینک اینترنت چطور عمل مینماید؟
موتورهای کاوش از خزنده اینترنت خویش برای دیسکاور کردن و دسترسی به صفحه ها اینترنت به کار گیری مینمایند. تک تک کرالرهای موتور کاوش با بارگیری پوشه robots.txt آن، که دربردارنده شرایطی درباره صفحات میباشد که به موتورهای کاوش اذن میدهند آن صفحات را کرال نمایند. پوشه robots.txt همینطور ممکن است دربردارنده اطلاعاتی در ارتباط نقشه تارنما یا این که به عبارتی تارنمامپ باشد. این فولدر دربرگیرنده لیستی از URLهایی میباشد که یک اینترنتتارنما، میخواهد خزندههای موتور کاوش آنهارا کرال نمایند. خزندههای موتور کاوش از یکسری الگوریتم و ضابطه برای انتخاب تعداد دفعات بازدید دوباره یک شیت و ایندکس شدن تعداد صفحات در یک وب سایت به کارگیری مینمایند. برای مثال، برگهای که به صورت منظم تغییر و تحول مینماید، ممکن میباشد بیشتر از برگهای که بندرت آپیدت میگردد، کرال گردد.
چگونه میاقتدار کرالرهای موتور کاوش را شناسایی کرد؟
رباتهای موتور کاوش که در هم اکنون کرال کردن یک وبسایت میباشند، می توانند از روش «رشته برهان مخاطب» یا این که به عبارتی user agent string که هنگام درخواست صفحه ها اینترنت به اینترنت سرور منتقل میگردند، شناسایی شوند. در اینجا چندین مثال از رشتههای ادله استفاده کننده که توسط موتورهای کاوش به کارگیری می شود را به شما معرفی خواهیم کرد:
ادله مخاطب Googlebot
Mozilla / 5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
دلیل کاربرBingbot
Mozilla/5.0 (compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm)
ادله استفاده کننده Baidu
Mozilla/5.0 (compatible; Baiduspider/2.0; +https://www.baidu.com/search/spider.html)
دلیل مخاطب Yandex
Mozilla/5.0 (compatible; YandexBot/3.0; +https://yandex.com/bots)
هر کسی می تواند از user agent یا این که ادله استفاده کننده شبیه موتورهای کاوش به کارگیری نماید. با این هم اکنون، نشانی IP که درخواست را اعمال داده می باشد، می تواند پذیرش نماید کهاین درخواست از سوی موتور کاوش آمده است. این فرآیند، DNS reverse lookup نامیده میگردد.
کرال شدن تصاویر و بقیه فایلهای غیرمتنی
موتورهای کاوش معمولا کارایی مینمایند هر URLی که با آن برخورد مینمایند را کرال و ایندکس نمایند. با این حالا، در صورتی URL از نوع پوشه غیرمتنی مانند تصویر، فیلم یا این که فایل صوتی باشد، موتورهای کاوش معمولا توانا به خواندن محتوای پوشه به غیر از اسم آن و متادیتای مربوط به آن نخواهند بود. اگرچه ممکن است یک موتور کاوش فقط بتواند داده ها محدودی در امر گونه های فایلهای غیرمتنی حصول نماید، ولی گشوده هم میقدرت آن ها را ایندکس یا این که در نتایج کاوش درجهبندی کرد و از روش آن، ترافیک بیشتری به دست آورد.
کرال کردن و کسب لینک و پیوندها از صفحه ها
خزندهها با کرال کردن دوباره صفحه ها مو جود که تا قبل از این دربارهی آنها داده ها داشتهاند، صفحه های تازه را دیسکاور کرده و سپس لینک و پیوندهای بقیه صفحه ها را برای یافتن URLهای نو استحصال مینمایند. این URLهای نو به صف صفحاتی که قرار میباشد کرال شوند، اضافه می گردند تا بتوانند در طول دیگری دانلود شوند. از روش این فرایند در لینکهای فالو، موتورهای کاوش کار کشته به پیدا کردن هر برگه وبی میباشند که در وب مو جود میباشد و دست کم از یک ورقه دیگر به آن لینک داده گردیده است.