آموزش وردپرس
خانه / سئو و بهینه سازی سایت / چگونه موتورجستجو را کنترل کنیم
آموزش سئو و بهینه سازی سایت، کنترل موتورهای جستجو
آموزش سئو و بهینه سازی سایت، کنترل موتورهای جستجو

چگونه موتورجستجو را کنترل کنیم

اکنون که شما همچون من وارد مباحث سئو سایت شده اید و در مرحله شناخت بیشتر عملکرد موتورهای جستجو برای حصول نتیجه دلخواهتان (که همان قرار گرفتن در نتایج اولیه است) هستید لازم است تا با مقاله زیر با ما همراه شوید تا بتوانید به این سئوال خود پاسخ دهید که : چگونه کراولر موتورهای جستجو را کنترل کنیم ؟

صاحبان وب سایت می توانند با استفاده از فایل robots.txt موتورهای جستجو را راهنمایی کنند که چگونه در سایتشان خزش نمایند و با صفحات سایت در تعامل باشند .
اولین چیزی که اسپایدر موتورهای جستجو همچون Googlebot هنگام ملاقات یک سایت بررسی می کند فایل robots.txt است. و آن بدین دلیل است که بداند :
آیا اجازه دسترسی به آن صفحه یا فایل را دارد ؛ اگر robots.txt می گوید وارد شو ، اسپایدر صفحات آن سایت را بررسی کند

فایل robots.txt در روت سایتتان قرار دارد پس برای پیدا کردن و دیدن آن کافی است بعد از آدرس سایتتان robots.txt را تایپ نمایید مانند تصویر زیر :
www.yourwebsite.com/robots.txt

در ادامه بعضی از تنظیمات رایج فایل robots.txt را خواهید دید :

User-agent:

قسمت “User-agent” مشخص میکند که مخاطب آن چه اسپایدری است . بدین معنی که اگر شما این فایل را برای تمامی اسپایدرهای موتورهای جستجو تنظیم می کنید باید جلوی آن ” * ” تایپ کنید، مانند زیر


User-agent: *


نام سه اسپایدر موتورهای جستجوی معروف گوگل ، یاهو و بینگ برای قسمت User-agents عبارتند از :
Googlebot
Yahoo! Slurp
bingbot

حال اگر این فایل را تنها یک یا چند ربات خاص تنظیم می کنید کافیست نام آن را تایپ کنید مانند زیر که فایل robots.txt فقط برای اسپایدر موتور جستجوی گوگل تنظیم کرده است.


User-agent: Googlebot


با دستور زیر اجازه دسترسی کامل به کراولر می دهیم :


User-agent: *
Disallow:


همینطور شما با داشتن یک فایل robots.txt خالی از هر دستوری و یا حتی نداشتن آن ؛ اجازه دسترسی کامل را فراهم می کنید

Disallow:
در قسمت “Disallow” برای اسپایدر مشخص می کنید که در چه فولدر هایی خزش نکنند
با این دستور ، همه دسترسی ها را بلاک می کنیم :


User-agent: *
Disallow: /


با دستور زیر تنها دسترسی به یک پوشه را بلاک می کنیم


User-agent: *
Disallow: /folder/


تنها دسترسی به یک فایل را بلاک می کنیم


User-agent: *
Disallow: /file.html


برای مثال شما نمی خواهید که اسپایدر عکس های موجود در سایتتان را ایندکس کند ، پس باید تمامی آنها را در پوشه ای قرار داده (فرضا photos) و با دستور زیر محروم کنید :


User-agent: *
Disallow: /photos


نکته : اسپایدرموتور جستجوی گوگل دستور دیگری به نام Allow دارد که به آن اجازه می دهد وارد یک زیرشاخه از شاخه ای که محدود شده نیز بشود
برای توضیح بیشتر ، مثال قبل را ادامه می دهیم ، در آنجا ما دسترسی به فولدر photos را برای همه اسپایدر ها منع کردیم ؛حال با دستور Allow میتوانیم دسترسی به یک عکس با نام فرضی mycar.jpg را که در پوشه منع شده photos قرار دارد ؛ تنها برای اسپایدر گوگل فراهم کنیم ، بدین شکل که :


User-agent: *
Disallow: /photos
Allow: /photos/mycar.jpg


در اینجا Googlebot این تصویر را ویزیت می کند اگرچه که در فولدری منع شده قرار دارد.


برای تسلط بیشترتان در انتهای مقاله مثال های بیشتری آمده است


نکته : توجه کنید که استفاده نادرست از فایل robots.txt می تواند به رنکینگ سایتتان آسیب بزند.

آموزش سئو و بهینه سازی سایت، کنترل موتورهای جستجو

موتور جستجو گر گوگل در راهنمایی هایی که برای وب مستران قرار داده چندین بار بر توجه اش به این فایل اشاره کرده است.
اگر شما دستورالعملی برای خزش ربات های موتورهای جستجو گر دارید باید آن را از طریق این فایل بیان کنید.


هر وب مستر در رابطه با این فایل باید سه آپشن را مد نظر قرار دهد :
I. مشخص کنید که آیا سایت شما فایل robots.txt را دارد.
که برای سنجش مورد اول شما می توانید از هر مرورگری استفاده کنید و همانطور که پیش تر گفته شد بعد از آدرس سایتتان “/robots.txt” را اضافه کنید . این فایل برای همه وبسایتها در یک مکان قرار دارد ، شما ممکن است این فایل را پیدا کنید در حالی که هیچ کلمه ای در آن نداشته باشد ویا برعکس و یا اینکه اصلا این فایل را پیدا نکند.

II. اگر این فایل را دارید ، مطمئن شوید که این فایل با ممنوع کردن صفحاتی که شما قصد بلاک آن را نداشتید ، به رنکینگ شما آسیبی نزند
برای چک کردن این مورد میتوانید از Google guidelines tool استفاده کنید که چنانچه شما بعضی منابع صفحات را که گوگل برای درک آن پیج به آن نیاز دارد بلاک کرده باشید، این هشدار را به شما می دهد.
III. مشخص کنید که آیا سایت شما به این فایل نیاز دارد


برای اینکه به درک کاملی از نیاز یا عدم نیاز به داشتن این فایل برسید ، باید بگویم در اغلب موارد به این فایل نیازی ندارید اما از جمله دلایلی که مارا به داشتن این فایل ترغیب می کند :
 شما محتوایی دارید که می خواهید از دسترس موتورهای جستجو دور بماند
 شما در سایتتان لینکهای پرداخت یا تبلیغات دارید که نیاز به دستورالعمل خاصی برای ربات ها است.
 می خواهید به آهنگ دسترسی ربات های معتبر به سایتتان پی ببرید
 شما مشغول توسعه سایتی هستید که جریان دارد اما هنوز نمیخواهید در موتور های جستجو ایندکس شود.

شایان ذکر است همه موقعیت های بالا با یک روش دیگر نیز قابل کنترل است (در صورت دسترسی کامل داشتن به وب سرور و آگاهی از نحوه کانفیگ آن ) اگرچه که فایل robots.txt مکان مرکزی خوبی برای رفع این موارد است و اکثر وب مستر ها توانایی و دسترسی لازم برای ساخت و استفاده از آن را دارند .
چنانچه شما نیازی به فایل robots.txt نداشته باشید ، اسپپایدر های موتورهای جستجو دسترسی کامل به سایتتان خواهند داشت که این یک متد معمولی ، ساده و بسیار رایج است.


منع کردن چند دایرکتوری مثل /cgi-bin/, /private/, و /tmp/ از خزش اسپایدر ها


User-agent: *
Disallow: /cgi-bin/
Disallow: /private/
Disallow: /tmp/


 منع کردن خزش در چند فایل مثل contactus.htm, index.htm, and store.htm


User-agent: *
Disallow: /contactus.htm
Disallow: /index.htm
Disallow: /store.htm


 منع کردن دسترسی به دایرکتوری /private/ برای همه اسپایدر ها به جز اسپایدر گوگل :


User-agent: *
Disallow: /private/

User-agent: Googlebot
Disallow:


 تنظیم تاخیر خزش برای تمامی موتورهای جستجو
چنانچه وب سایت شما ۱۰۰۰ صفحه داشته باشد تاخیر خزش ۳۰ ثانیه ای باعث می شود تا خزش در تمامی صفحات و ایندکس کردنشان ۸.۳ ساعت طول بکشد
همینطور برای تاخیر خزش ۵۰۰ ثانیه ای خزش تمامی صفحات و ایندکس کردنشان ۵.۸ روز طول می کشد


User-agent: *
Crawl-delay: 30
: /