امتیاز موضوع:
  • 0 رأی - میانگین امتیازات: 0
  • 1
  • 2
  • 3
  • 4
  • 5

فایل متنی روبات برای موتور های جستجو

#1
اگر شما مدیر یک وب سایت اینترنتی باشید احتمالاً با فایل Robot.txt برخورد کرده اید یا حداقل درباره آن شنیده اید در این مقاله می خواهیم کمی بیشتر درباره این فایل مزایای آن و بدفهمی هایی که در مورد آن وجود دارد صحبت کنیم.
این فایل در حقیقت یک فایل متنی است که به موتور های جستجو می گوید کجا ها را نباید بکاود و در لیست خود اضافه کند. حتی شما می توانید یک موتور جستجو را از زیر و رو کردن وب سایت خود بر حذر کنید اما این فایل هیچ الزامی برای آن موتور جستجو ایجاد نمی کند و هیچ ضمانتی نیست که نرم افزار های کاونده موتور های جستجو از دستورات این فایل پیروی کنند ولی به هر حال موتور های جستجوی بزرگ و معتبر به این فایل اهمیت می دهند و از آن استفاده می کنند.
 
چرا باید از آن استفاده کنید؟
هدف موتور های جستجو جمع آوری محتویاتی است که قرار است به کاربران شما ارائه شود بنابراین لازم نیست مثلاً کد های برنامه های وب سایت شما توسط موتور جستجو کاوش شود  توسط موتور جستجو کاوش شود این کار دو مشکل به وجود می آورد اول اینکه به سرور وب سایت شما بار اضافه تحمیل می کند و سرعت سرور کاهش می یابد و در همین هنگام اگر کاربران هم در حال بازدید از سایت شما یا در حال دانلود فایل های حجیم باشند این مشکل بیشتر به چشم می آید.  دوم اینکه بعضی کد های وب سایت شما در اختیار دیگران می افتد که از نظر امنیتی اصلاً جالب نیست هر چند این راه کار به عنوان یک راهکار امنیتی به هیچ وجه کامل نیست و شما باید تنظیمات لازم را برای محدودیت دسترسی به این بخش در کنترل پنل سایت خود انجام دهید.
 
چگونه این فایل را ایجاد کنیم؟
ایجاد یک فایلRobots.txt بسیار ساده است. Robot.txt چیزی جز یک فایل ASCII متنی ساده که در شاخه اصلی وب سایت شما قرار می گیرید نیست. به عنوان مثال اگر نام وب سایت شمادیدن لینک ها برای شما امکان پذیر نیست. لطفا ثبت نام کنید یا وارد حساب خود شوید تا بتوانید لینک ها را ببینید.
www.yadbegir.com  باشد فایل Robots.txt شما باید در مسیر دیدن لینک ها برای شما امکان پذیر نیست. لطفا ثبت نام کنید یا وارد حساب خود شوید تا بتوانید لینک ها را ببینید.
www.yadbegir.com/robots.txt  قرار گیرد. برای کسانیکه نمی دانند یک فایل ASCII متنی چیست باید بگویم یک فایل متنی ساده است که باnotepad ویندوز به راحتی می توانید آنرا ایجاد نمایید.
در این فایل اصولاً نام کاونده های موتور جستجو در یک خط ذکر می شود و در خطوط بعدی نام شاخه ها یا فایل هایی که کاوش آنها مجاز نیست می آید که هر کدام را باید در یک خط جداگانه ذکر نمایید. شما به جای نام کاونده موتور جستجو می توانید از علامت * استفاده کنید بدون اینکه برای هر کدام نام جداگانه ای ذکر نمایید. و به خاطر داشته باشید که فایل Robots.txt یک فایل ممانعت کننده یا محدود کننده است و به این طریق شما نمی توانید موتور جستجو را ملزم کنید که دایرکتوری یا فایل خاصی را در لیست خود اضافه کند.
به عنوان مثال می توانید این را در فایل Robots.txt خود قرار دهید:
User-agent: *
Disallow:/cgi-bin/
دو خط بالا را اگر به فایل Robots.txt خود اضافه نمایید به همه کاوشگر های موتور های جستجو گفته اید که اجازه ندارند به دایرکتوری و محتویات آن cgi-bin دسترسی داشته باشند.
اگر موتور جستجوی بخصوصی مانند google image را در نظر داشته باشید که تصاویر وب سایت شما را جمع آوری و لیست می کند و بخواهید از دسترسی آن به تصاویر وب سایت خود جلوگیری نمایید می توانید این دستورات را به فایل خود اضافه نمایید.
User-agent: google-Image
Disallow:/
 همچنین می توانید در چند خط چندین دستور Disallow داشته باشید و برای چندین موتور جستجو مسیر هایی را مشخص کنید در اینجا نمونه از یک فایل بزرگ تر را می بینید.
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/ 
 
User-agent: Googlebot-Image
Disallow: /
اولین بلوک از این فایل همه موتور های جستجو را از دسترسی به دایرکتوری های images و cgi-bin باز می دارد. دومین بلوک به روبوت کاونده Googlebot-Image می گوید که اجازه دسترسی به هیچ دایرکتوری از سایت را ندارد.
شما حتی می تواند به موتور های جستجو بگویید که یک فایل خاص را از لیست جستجوی خود حذف کند. به عنوان مثال اگر نمی خواهید موتور جستجوی تصاویر گوگل عکس خاصی را در لیست خود اضافه نماید و اگر فرض کنیم نام این فایل mymugshot.jpg باشد در این صورت با افزودن این خطوط به فایل خود می توانید این کار را انجام دهید.
User-agent: Googlebot-Image
Disallow: /images/mymugshot.jpg
به خاطر داشته باشید حتماً  /  را اضافه کنید چون نشان دهنده یک دایرکتوری است. اگر به سادگی وارد کنید:
User-agent: *
Disallow: /privatedata
در این صورت همه موتورهای جستجو را از دسترسی به  هر آنچه که در داخل دایرکتوری به نام privatedataباشد باز می دارید.
 
از کجا می توانم نام روبوت ها را پیدا کنم؟
اگر بخواهید موتور جستجوی خاصی را برای دسترسی به وب سایت خود محدود کنید باید نام آنرا دقیقا بدانید برای این منظور بهترین راه این است که وب سایت آن موتور جستجو را بازدید کنید. موتور های جستجوی معتبر معمولاً صفحاتی دارند که در آن جزییات کار را به شما ارائه می دهد تا بتوانید برای آنها فایل ها و دایرکتوری های غیر مجاز را مشخص کنید.
 
اشتباهات معمول
در اینجا اشتباهاتی که در این زمینه رایج است را بررسی می کنیم.
1- هیچ ضمانتی برای کارایی این فایل متنی وجود ندارد
همانطور که قبلا هم گفتم فایل های robots.txt یک سری فایل استاندارد برای جلوگیری از کاوش فایل ها توسط موتور های هستند ولی بعضی موتور های جستجو خود را برای خواندن این فایل ها اذیت نمی کنند و هیچ ضمانتی نیست که به این روش موتور های جستجو را از دسترسی فایل ها یا دایرکتوری های مورد نظر خود باز دارید. اگر می خواهید واقعاً می خواهید دسترسی به یک دایرکتوری را محدود نمایید باید از فایل .htaccess استفاده کنید.
2- دایرکتوری ها محرمانه خود را لیست نکنید.
هر کسی می تواند به فایل robots.txt شما دسترسی داشته باشد مثلاً کافیست این آدرس را در مرورگر خود وارد کند
http://www.yadbegir.com/robots.txt
بعضی مدیران سایت تازه کار لیستی از فایل ها و دایرکتوری های محرمانه خود را در این فایل قرار می دهند تا از دسترسی موتور های جستجو خارج شوند ولی غافل از اینکه بعضی افراد و بعضی روبوت های فرستنده هرزنامه بدنبال چنین آدرس هایی می گردند. مراقب باشید به این روش امنیت وب سایت خود را به خطر نیندازید.
3- فقط یک دایرکتوری یا فایل برای هر خط
سعی نکنید در هر خط یا دستور Disallow بیش از یک فایل یا دایرکتوری را مشخص کنید. چون به احتمال زیاد این دستور کار نخواهد کرد و طبق استاندارد روبوت های کاونده فقط یک برای هر خط یک دستور و یک عبارت Disallow قبول می کنند.
آیا حتما باید این فایل را ایجاد کنیم؟
حتی اگر نخواهید هیچ موتور جستجویی را محدود کنید فقط کافیست این دستور را در فایل خود ایجاد نمایید.
User-agent: *
Disallow:
به این ترتیب شما یک فایل robots.txt دارید که بوسیله آن به موتور جستجو گفته اید می تواند همه فایل ها و دایرکتوری های شما را بکاود. به این ترتیب حداقل بهره ای که خواهید برد این است که با هر بار درخواست موتور جستجو برای این فایل متنی خطای 404 لود نمی شود و چند کیلو بایت از پهنای باند خود را صرفه جویی کرده اید. و هم چنین از آمار شما یک آدرس خطا کاسته می شود که این هم در رانکینگ موتور جستجو اثری مثبت دارد.
پاسخ
آگهی


[-]
به اشتراک گذاری/بوکمارک (نمایش همه)
google Facebook cloob Twitter
برای ارسال نظر وارد حساب کاربری خود شوید یا ثبت نام کنید
شما جهت ارسال نظر در مطلب نیازمند عضویت در این انجمن هستید
ایجاد حساب کاربری
ساخت یک حساب کاربری شخصی در انجمن ما. این کار بسیار آسان است!
یا
ورود
از قبل حساب کاربری دارید? از اینجا وارد شوید.

موضوعات مرتبط با این موضوع...
  بهترین نرم افزار برای بازگردانی فایل های پاک شده از گوشی
  معرفی_سایت / سایت همه‌فن‌حریف برای تبدیل فایل‌ها!
  آموزش تبدیل متن یه اموجی متنی(بیا با این پست شاخ شو)
  مشاهده فایل‌های مخفی در فلش و هارد دیسک
  اموزش ایجاد جعبه جستجو برای فایر فاکس و اینترنت اکسپلوره
  آموزش قرار دادن کادر جستجو در محل مورد نظر
  رمزگذاری فایل‌ها از طریق مرورگر وب
  تبلیغات در نتایج جستجو گوگل چیست و چگونه کار می کند؟
  ایجاد صفحه 404 در فایل htaccess
  با ساخت یک فایل سیستم خود را خاموش کنید+ آموزش

پرش به انجمن:


کاربرانِ درحال بازدید از این موضوع: 1 مهمان