اگر مقالات قدیمی سئوی وبلاگ نوین را خوانده باشید، به احتمال زیاد متوجه مفهومی به نام فایل robots.txt شده‌اید. در همان مقالات، بسیاری از شما عزیزان از ما سوال کرده‌اید که این فایل robots.txt چیست و چگونه می توان آن را ساخت؟ یا آیا وجود فایل robots.txt برای سئوی وب سایت ضروری است؟

به دلیل همین سوالات، تصمیم گرفتیم که در این مقاله به شما توضیح دهیم که اصلاً فایل robots.txt چیست و چرا باید از آن استفاده کرد. بنابراین اگر مشتاقید در این باره اطلاعات بیشتری کسب کنید، پیشنهاد می‌کنم این مقاله را تا انتها مطالعه کنید.

همانطور که می‌دانیم موتورهای جستجوگر (گوگل، یاهو و بینگ که صد البته می‌دانیم گوگل از همه مهم‌تر است) جهت یافتن و ایندکس کردن صفحات وب‌سایت‌ها از ربات‌های مختلف استفاده می کنند. ربات‌های موتورهای جستجوگر (که با نام‌های Crawler یا Spider نیز شناخته می‌شوند) با خزیدن در صفحات وب، اطلاعات مربوط به صفحات مختلف را به دست آورده و برای موتور جستجو ارسال می‌کنند.

شاید بپرسید که Crawlerهای موتور جستجوگر هر چند وقت یک بار به سایت شما سر می‌زنند؟ خب، باید گفت که این امر به تعداد بروزرسانی وب‌سایت شما ارتباط مستقیم دارد. هر چه در طول روز تعداد بیشتری مطلب در وب‌سایت‌تان قرار بگیرد، ربات‌های جستجوگر دفعات بیشتری به سایت شما مراجعه می‌کنند (پیشنهاد می‌کنم مقاله موتورهای جستجو چگونه کار می کنند را مطالعه کنید).

با همه این اوصاف، تمام صفحات یک سایت از درجه اهمیت و امنیت یکسانی برخوردار نیستند. برای مثال بیشتر وب‌مسترها علاقه‌ای ندارند تا پنل مدیریت وب‌سایت‌شان در موتورهای جستجوگر ایندکس شود و در اختیار عموم قرار بگیرد یا اینکه برخی از صفحات سایت‌شان محتوای قابل قبولی ندارد و به همین دلیل ترجیح می‌دهند آن صفحات، تا تکمیل نهایی در موتورهای جستجو ثبت نشوند. در چنین شرایطی تکلیف چیست؟ چگونه می‌توان از ورود ربات‌های جستجوگر به این صفحات جلوگیری کرد؟

دقیقاً در همین نقطه است که فایل robots.txt برای کمک وارد می‌شود.

فایل Robots.txt چیست؟

فایل robots.txt یا robots exclusion standard (که در ویکیپدیا، استاندارد استثنا کردن رباتها ترجمه شده)، فایل متنی با فرمت txt است که وب‌مسترها بوسیله‌ی آن می‌توانند چگونگی خزیده شدن و ایندکس شدن وب‌سایت‌شان توسط ربات‌های موتور جستجوگر را تعیین کنند.

به طور خلاصه، با استفاده از فایل robots.txt می‌توانید رفتار Crawlerهای موتور جستجو در قبال وب‌سایت خود را تعیین کنید و به آن‌ها بگویید کدام قسمت از صفحات وب‌سایت‌تان را نباید جستجو و ایندکس کنند.

با این حال، ناگفته نماند که همه‌ی ربات‌ها از این دستورات پیروی نمی‌کنند. برای مثال ربات‌های Email Harvesters و Spambots Malware یا ربات‌هایی که امنیت وب‌سایت شما را بررسی می‌کنند، ممکن است اصلاً از این دستورات پیروی نکنند و حتی کار خود را از بخش‌هایی از سایت آغاز کنند که اجازه‌ی دسترسی بهشان را ندارند.robots.txt چیست؟

به هر حال، روش‌هایی در بهینه‌سازی وب‌سایت وجود دارد که زمان‌بر یا دشوار نیستند و استفاده از فایل robots.txt یکی از آنهاست.

برای آنکه از قدرت فایل robots.txt برای سئوی وب‌سایت خود استفاده کنید، احتیاجی به تخصص در کدنویسی ندارید. اگر می‌توانید منبع کدهای وب‌سایت خود را پیدا کنید، مطمئن باشید می‌توانید از این فایل استفاده کنید.

در ادامه روش ساخت فایل robots.txt را به شما آموزش می‌دهیم.

آشنایی با دستورات فایل robots.txt و معانی‌شان

فایل robots.txt وب‌سایت شما از دو دستور کلی تبعیت می‌کند که برای ربات گوگل (GoogleBot) یک دستور دیگر نیز اضافه می‌شود.

با استفاده از این دو دستور، شما می‌توانید قوانین مختلفی را جهت دسترسی ربات‌های خزنده‌ی موتورهای جستجوگر برای ورود به وب‌سایت‌تان وضع کنید. این قوانین عبارتند از:

User-agent

از این دستور برای هدفگیری یک ربات خاص استفاده می‌شود. از این دستور می‌توان به دو شکل در فایل robots.txt استفاده کرد.

اگر می‌خواهید به تمام ربات‌های خزنده یک دستور را بدهید، تنها کافیست بعد از عبارت User-agent از علامت “*” استفاده کنید. مانند زیر:
User-agent: *
دستور بالا به این معنی است که “دستورات فایل، برای همه ربات‌های جستجوگر یکسان عمل می‌کند”.

اما اگر می‌خواهید تنها به یک ربات خاص مانند ربات گوگل (GoogleBot) دستور خاصی را بدهید، دستور شما باید به شکل زیر نوشته شود:
User-agent: Googlebot
کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است”.

Disallow

دستور Disallow به ربات‌ها می‌گوید که چه فولدرهایی از وب‌سایت شما را نباید بررسی کنند. درواقع این دستور، بیانگر URLای از سایت است که می‌خواهید از ربات‌های جستجو پنهان بماند.

برای مثال اگر نمی‌خواهید موتورهای جستجو، تصاویر وب‌سایت‌تان را ایندکس کنند، می‌توانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید.

فرض کنیم که تمام این تصاویر را به درون فولدر “Photos” منتقل کرده‌اید. برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند زیر را بنویسید:
User-agent: *
Disallow: /photos

دو خط کدنویسی فوق در فایل robots.txt، به هیچ یک از ربات‌های جستجوگر اجازه ورود به فولدر تصاویر سایت‌تان را نمی‌دهد. در کد دستوری بالا،  قسمت “User-agent: *” می‌گوید که اجرای این دستور برای تمامی ربات‌های جستجو الزامی است. قسمت “Disallow: /photos” بیانگر این است که ربات، اجازه ورود یا ایندکس پوشه تصاویر سایت را ندارد.

Allow

همانطور که می‌دانیم ربات خزنده و ایندکس کنندۀ گوگل، Googlebot نام دارد. این ربات نسبت به سایر ربات‌های جستجوگر، دستورات بیشتری را متوجه می‌شود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک می‌کند.

دستور Allow به شما امکان می‌دهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد. برای درک بهتر این دستور، اجازه بدهید که از مثال قبلی استفاده کنیم، بهتر نیست؟

در مثال قبل رشته کدی را نوشتیم که به ربات‌های جستجو، اجازه دسترسی به تصاویر سایت را نمی‌داد. تمام تصاویر سایت را درون یک پوشه به نام Photos قرار دادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:
User-agent: *
Disallow: /photos

حال تصور کنید درون این پوشه‌ی ما که در هاستینگ سایت قرار دارد، تصویری به نام novin.jpg وجود دارد که می‌خواهیم Googlebot آن را ایندکس کند. با استفاده از دستور Allow می‌توانیم به ربات گوگل بگوییم که این کار را انجام دهد:
User-agent: *
Disallow: /photos
Allow: /photos/novin.jpg

این دستور به ربات گوگل می‌گوید که اجازه مشاهده و ایندکسِ فایل novin.jpg را دارد، علی رغم اینکه فولدر Photos از دسترس ربات‌ها خارج شده است.

یک فایل Robots.txt باید حاوی چه چیزی باشد؟

محتوای یک فایل robots.txt به عملکرد کلی سایت شما و سئوی آن بستگی دارد. به طور کلی تمام فایل‌های robots.txt یکی از این ۳ نتیجه را در پی خواهند داشت:

  • اجازه ایندکس کامل یا Full Allow: در این نوع فایل، اجازه ایندکس تمام محتوای سایت به ربات داده می‌شود (البته ممکن است که ۱۰۰% سایت ایندکس نشود).
  • عدم اجازه به ربات برای ایندکس سایت یا Full Disallow: در این نوع فایل، اجازه ایندکس هیچ یک از محتوای سایت به ربات داده نمی‌شود (باز هم ۱۰۰% نیست و امکان ایندکس یک یا چند صفحه وجود دارد).
  • اجازه شرطی یا Conditional Allow: در این نوع فایل، دستورات موجود در فایل txt مشخص می‌کند که کدام یک از صفحات نباید ایندکس شوند.

آشنایی با دستورات فایل robots.txt

خب، بیایید هر یک از موارد را با هم بررسی کنیم.

Full Allow یا اجازه ایندکس کامل

بیشتر افراد می‌خواهند که ربات‌ها تمام محتوا وب‌سایت‌شان را بررسی و ایندکس کند. اگر شما هم جزو این افراد هستید و می‌خواهید تمام وب‌سایت‌تان ایندکس شود، با سه روش می‌توانید از ربات‌ها بخواهید این کار را برایتان انجام دهند:

۱٫ از فایل robots.txt استفاده نکنید

اگر وب‎سایت‌تان فایل robots.txt ندارد، چنین اتفاقی رخ می‌دهد:

یک ربات خزنده مانند Googlebot وارد وب‌سایت شما می‌شود. به دنبال فایل robots.txt می‌گردد. فایل موردنظر را پیدا نمی‌کند (چون وجود ندارد!). سپس، ربات جستجوگر احساس آزادی می‌کند و تمام صفحات وب‌سایت شما را جهت ایندکس کردن، مشاهده می‌کند. تعجب نکنید! زیرا این ربات دقیقاً برای چنین کاری طراحی شده است.

حتما بخوانید:  طراحی و توسعه سایت بر اساس اصول سئو - فصل چهارم

۲٫ یک فایل خالی ایجاد کنید و نامش را به robots.txt تغییر دهید

اگر وب‌سایت شما یک فایل robots.txt دارد که درون آن هیچ محتوایی وجود ندارد، چنین اتفاقی رخ می‌دهد:

یک ربات خزنده مانند Googlebot وارد وب‌سایت شما می‌شود. به دنبال فایل robots.txt می‌گردد. آن را پیدا کرده و می‌خواند، اما درون فایل دستوری برای خواندن وجود ندارد. پس، ربات جستجوگر احساس آزادی می‌کند و تمام صفحات وب‌سایت شما را جهت ایندکس کردن مشاهده می‌کند.

۳٫ یک فایل robots.txt واقعی ایجاد کنید

یک فایل txt بسازیر و دو خط کد زیر را در آن وارد نمایید:
User-agent: *
Disallow:

اگر فایل robots.txt شما حاوی دستورات باشد، چنین اتفاقی رخ می‌دهد:

یک ربات خزنده مانند Googlebot وارد وب‌سایت شما می‌شود. به دنبال فایل robots.txt می‌گردد. آن را پیدا می‌کند. خط اول را می‌خواند. سپس، خط دوم را می‌خواند. سپس، ربات جستجوگر احساس آزادی می‌کند و تمام صفحات وب‌سایت شما را جهت ایندکس کردن مشاهده می‌کند زیرا خودتان از او خواستید این کار را انجام دهد! (توضیحات معرفی دستورات را به یاد دارید؟)

Full Disallow یا عدم اجازه برای ایندکس وب‌سایت

توجه: استفاده از این کدها به این معنی است که وب‌سایت شما توسط هیچ یک از موتورهای جستجو ایندکس نمی‌شود. بنابراین با وارد کردن این دستورات وب‌سایت شما در نتایج جستجو، قابل مشاهده نخواهد بود.

برای آنکه ربات‌های خزنده موتورهای جستجوگر معروف را به داخل وب‌سایت خود راه ندهید، تنها کافیست دستور زیر را در فایل robots.txt وارد نمایید:
User-agent: *
Disallow: /

مطمئناً استفاده از این دستور، به هیچ وجه به سود سئوی وب‌سایت شما نیست زیرا هیچ یک از صفحات سایت‌تان ایندکس نخواهد شد.

چرا استفاده از فایل robots.txt مهم است؟

فرض کنید که ربات خزنده‌ی یک موتور جستجو می‌خواهد از وب‌سایت شما دیدن کند. این ربات پیش از آنکه وارد وب‌سایت شما شود، جهت دریافت دستورالعمل فایل robots.txt شما را بررسی می‌کند.

همانطور که در بالا اشاره کردیم، استفاده از فایل robots.txt به سه دلیل استفاده می‌شود. بگذارید اهمیت استفاده از این فایل را با مثال برایتان توضیح بدهیم.

خب، فرض کنیم که ربات موتور جستجو وارد وب‌سایت شما شده و با یک فایل robots.txt که حاوی کدهای زیر است مواجه می‌شود:
User-agent: *
Disallow: /

در حقیقت، این کد استخوان‌بندی اصلی یک فایل robots.txt است. همانطور که قبل‌تر گفتیم، علامت “*” پس از دستور User-agent به معنی این است که تمام ربات‌ها امکان مشاهده فایل robots.txt را دارند. همچنین، علامت مورب “/” پس از دستور Disallow به ربات‌ها می‌گوید که هیچ یک از صفحات سایت نبینند.

خب، شاید تعجب کنید چرا کسی می‌خواهد از ورود ربات‌های جستجو به وب‌سایتش جلوگیری کند. مگر یکی از اهداف اصلی در سئو و بهینه‌سازی سایت این نیست که کاری کنیم تا موتورهای جستجو راحت‌تر صفحات وب‌سایتمان را بررسی کنند؟

خب، اینجا دقیقاً جایی است که ترفندهای سئو وارد قضیه می‌شوند.

احتمالاً وب‌سایت شما نیز دارای صفحات بسیاری است. درست است؟ اگر تصور می‌کنید تعداد صفحات وب‌سایت‌تان زیاد نیست، کافیست یک بار آن را بررسی کنید تا با واقعیت روبرو شوید.

حال اگر تعداد صفحات وب‌سایت‌تان زیاد باشد، موتور جستجو زمان بیشتری برای خزیدن و ایندکس کردن صفحات نیاز دارد که همین زمان طولانی، بر روی رتبه سایت‌تان در نتایج جستجو، تاثیر منفی خواهد گذاشت.

می‌پرسید چرا؟ زیرا ربات خزنده موتور جستجوی گوگل (همان Googlebot خودمان!) دارای ویژگی به نام Crawl Budget است.

Crawl Budget در حقیقت تعداد صفحاتی از وب سایت‎تان است که ربات گوگل در یک روز آنها را خزیده و بررسی می‌کند. بودجه شما، یا همان تعداد صفحاتی که توسط Googlebot مشاهده می شوند، بر اساس حجم وب‌سایت شما (تعداد صفحات)، سلامت آن (عدم بروز خطا) و تعداد بک‌لینک‌های سایت‌تان تعیین می‌شود.

Crawl Budget به دو بخش تقسیم می‌شود. اولین بخش، Crawl Rate Limit (حد نرخ خزیدن) است. راهنمای گوگل Crawl Rate Limit را به این شکل توضیح می‌دهد:

Crawl Rate Limit

ربات گوگل (Googlebot)، به شکلی طراحی شده است تا شهروند خوبی برای دنیای اینترنت باشد. خزیدن، اولویت اصلی این ربات است و به گونه‌ای طراحی شده که تا بر تجربه کاربری بازدیدکنندگان سایت تاثیری نگذارد. این بهینه‌سازی Crawl Rate Limit نام دارد که برای ارائه تجربه کاربری بهتر، تعداد صفحات قابل Crawl در یک روز را محدود می‌کند.

به طور خلاصه، Crawl Rate Limit نمایشگر تعداد ارتباطات همزمان ربات گوگل با یک سایت، به همراه تعداد دفعات توقف این ربات در عملیات خزش یا Crawling وب‌سایت است. نرخ خزش (Crawl Rate) می‌تواند بر اساس چند عامل تغییر کند:

  • سلامت خزش (Crawl Health): اگر وب‌سایت سریع باشد و بتواند سیگنال‌ها را به سرعت پاسخ دهد، مطمئناً Crawl Rate بالا می‌رود، اما اگر وب‌سایت شما کند باشد یا در حین Crawl خطاهای سروری به وجود بیاید، نرخ خزش ربات گوگل کاهش می‌یابد.
  • تعیین محدودیت در Google Search Console: صاحبات وب‌سایت‌ها می‌توانند میزان خزش وب‌سایت‌شان را کاهش دهند.

خب، هنوز Crawl Budget را به یاد دارید؟ بخش دوم آن، Crawl Demand نام دارد. گوگل Crawl Demand را به این شکل توضیح می‌دهد:

Crawl Demand

حتی اگر ربات گوگل به حد Crawl Rate تعیین شده نرسد، در صورتی که تقاضایی برای ایندکس شدن وجود نداشته باشد، شما شاهد فعالیت کمی از سوی ربات گوگل خواهید بود. دو فاکتوری که نقش مهمی در تعیین Crawl Demand (تقاضای خزش) دارند، عبارتند از:

  • محبوبیت: URL‌هایی که در اینترنت محبوب‌تر هستند، بیشتر از دیگر آدرس‌ها خزیده می‌شوند تا در ایندکس گوگل تازه‌تر باشند (ببینید بروزرسانی مداوم وب‌سایت چقدر مهم است!).
  • Staleness: سیستم گوگل به شکلی است که از قدیمی شدن و ثابت ماندن URLها جلوگیری می‌کند.

به علاوه، اتفاقاتی که بر کل سایت تاثیر می‌گذارند مانند جا‌به‌جایی وب‌سایت، ممکن است میزان Crawl Demand را جهت ایندکس دوباره وب‌سایت بر روی آدرس جدید، افزایش دهند.

در نهایت، ما با بررسی Crawl Rate و Crawl Demand، مقدار Crawl Budget یک وب‌سایت را تعریف می‌کنیم. در واقع Crawl Budget، تعداد URLهایی است که ربات گوگل می‌خواهد و می‌تواند ایندکس کند.

خب، بیایید تعریف گوگل از Crawl Budget را یکبار دیگر بخوانیم: ” Crawl Budget، تعداد URLهایی است که ربات گوگل می‌خواهد و می‌تواند ایندکس کند.”

مطمئناً شما هم می‌خواهید ربات گوگل Crawl Budget سایت‌تان را به بهترین شکل ممکن مصرف کند. به عبارت دیگر، ربات گوگل باید ارزشمندترین و مهم‌ترین صفحات شما را ایندکس کند.

البته گوگل بیان می‌کند که عوامل و فاکتورهایی وجود دارند که بر روی عملیات خزش و ایندکس شدن سایت، تاثیر منفی می‌گذارند:

  • وجود محتوای تکراری در سایت
  • وجود صفحات سافت ارور
  • استفاده از Session Identifier
  • وجود ناوبری ضعیف در سایت
  • صفحات هک شده در وب‌سایت
  • محتوای بی‌ارزش و اسپم

هدر دادن منابع سرور برای این صفحات، باعث از بین رفتن Crawl Budget شما می‌شود. به این ترتیب صفحات ارزشمند و مهمی که واقعاً نیاز به ایندکس شدن دارند خیلی دیرتر به نتایج جستجو راه پیدا می‌کنند.

خب، بیایید به موضوع اصلی خودمان یعنی فایل robots.txt برگردیم.

اگر بتوانید فایل robots.txt را به درستی ایجاد کنید، می‌توانید به موتورهای جستجو (به خصوص Googlebot) بگویید که کدام صفحات را مشاهده نکند.

پیامدهای داشتن این فایل را تصور کنید. اگر به موتورهای جستجو بگویید که فقط بهترین محتوای وب‌سایت‌تان را بررسی کنند، ربات‌ها وب‌سایت شما را بر اساس آن یک محتوا ایندکس می‌کنند.

گوگل در این باره می‌گوید:

مطمئناً نمی‌خواهید که ربات خزنده‌ی گوگل برای مشاهده و ایندکس محتوای تکراری و کم ارزش، سرورهای شما را اشغال کند.

با استفاده درست از فایل robots.txt می توانید به ربات‌های جستجو بگویید که Crawl Budget سایت‌تان را به درستی مصرف کنند. همین قابلیت است که اهمیت فایل robots.txt را در سئو دوچندان می‌کند.

پیدا کردن فایل robots.txt

اگر ترغیب شدید که نگاهی به فایل robots.txt خود بیاندازید، راهی آسان برای انجام این کار وجود دارد. در واقع، این روش برای هر سایتی کاربرد دارد. بنابراین، حتی می‌توانید فایل‌های دیگر سایت‌ها را نیز بررسی کنید و ببینید که آنها چه نوع فایلی را ایجاد کرده‌اند.

تمام کاری که باید انجام دهید این است که یک آدرس معمولی در مرورگر خود وارد نمایید (برای مثال novin.com یا …). سپس، عبارت robots.txt/ را در انتهای URL وارد نمایید.

با انجام این کار، با ۳ موقعیت روبرو خواهید شد:

  1. به فایل txt دسترسی پیدا می‌کنید.
نمونه فایل robots.txt از سایت نوین

دستور فایل robots.txt وب سایت نوین

  1. به یک فایل خالی (بدون محتوا) دسترسی پیدا می‌کنید.

برای مثال وب‌سایت دیزنی، فایل robots.txt ندارد.

نمونه سایتی که فایل robots.txt ندارد

همانطور که می‌بینید فایل robots.txt سایت دیرنی محتوایی ندارد.

  1. با ارور ۴۰۴ روبرو می‌شوید.

برای مثال در زمان دیدن فایل robots.txt سایت بامیلو با ارور ۴۰۴ مواجه خواهید شد.

ارور 404 در زمان مشاهده فایل robots.txt

ارور ۴۰۴ در زمان مشاهده فایل robots.txt سایت بامیلو

پیشنهاد می‌کنم چند دقیقه صبر کنید و فایل robots.txt سایت خود را بررسی کنید. اگر با یک فایل خالی یا ارور ۴۰۴ مواجه شدید، زمان آن است که فایل خود را ایجاد کنید. اگر هم یک فایل معتبر پیدا کردید، احتمالاً تنظیمات آن مرتبط با زمانی است که وب‌سایت خود را راه اندازی کرده بودید.

من به شخصه از این روش برای برای نگاه کردن به فایل‌های robots.txt دیگر سایت‌ها استفاده می‌کنم. زمانی که راه و چاه استفاده از این فایل را یاد بگیرید، استفاده از این روش بسیار ارزشمند خواهد بود.

حالا می‌خواهیم به یک فایل robots.txt واقعی نگاه بیاندازیم.

اگر بر روی سایت‌تان فایل robots.txt ندارید، باید از ابتدا این فایل را ایجاد کنید. برای انجام این کار از نرم‌افزارهای متنی ساده مانند Notepad در ویندوز یا TextEdit در مکینتاش استفاده کنید. توجه داشته باشید که حتماً باید از نرم‌افزارهای ویرایش متن ساده استفاده کنید. برای مثال ممکن است نرم‌افزار Word کدهای اضافی به فایل شما اضافه کند.

ما در این مقاله از Editpad.org استفاده می‌کنیم که ابزاری رایگان برای ویرایش متون است.

editpad.org ابزاری رایگان برای ویرایش فایل robots.txt

برگردیم به مبحث robots.txt. اگر در حال حاضر فایل robots.txt دارید، باید آن را در دایرکتوری Root سایت خود قرار دهید.

اگر به گشت‌و‌گذار در کدهای منبع سایت‌تان عادت ندارید، یافتن نسخه قابل ویرایش فایل robots.txt برایتان کمی دشوار خواهد بود.

برای دسترسی به دایرکتوری Root وب‌سایت‌تان می‌توانید به اکانت هاستینگ وب‌سایت‌تان مراجعه کرده و رمز عبور و نام کاربری خود را وارد نمایید. پس از ورود به قسمت مدیریت فایل یا قسمت FTP وب‌سایت خود بروید.

به احتمال زیاد با چنین صفحه‌ای روبرو خواهید شد.

محل ذخیره فایل robots.txt

فایل robots.txt خود را پیدا کرده و آن را برای ویرایش باز کنید. دستورات درون آن را پاک کنید. حالا، دستور جدیدی که می‌خواهید را وارد کنید یا اگر می‌خواهید آن را خالی نگه دارید.

نکته: اگر از سیستم مدیریت محتوای وردپرس استفاده می‌کنید، احتمالاً اگر آدرس yoursite.com/robots.txt را در مرورگرتان وارد کنید فایل robots.txt سایت‌تان را مشاهده نمایید. با این حال، این امکان وجود دارد که فایل اصلی را درون دایرکتوری Root وب‌سایت پیدا نکنید.

دلیل این اتفاق این است که اگر فایل robots.txt در دایرکتوری وب‌سایت وجود نداشته باشد، وردپرس به صورت خودکار یک فایل robots.txt مجازی ایجاد می‌کند. اگر با چنین مشکلی روبرو هستید، بهتر است که یک فایل جدید برای وب‌سایت‌تان ایجاد کنید.

ساخت فایل robots.txt

شما می‌توانید با استفاده از یک ویراشگر متنی ساده، فایل robots.txt خود را ایجاد کنید (البته همانطور که گفتیم این ویرایشگر، حتماً ساده باشد تا کدی به دستورات اضافه نکند). اگر در حال حاضر وب‌سایت‌تان دارای فایل robots.txt است و شما قصد تغییر آن را دارید، کافیست فایل را باز کرده و فقط محتوای آن را پاک کنید.

برای ساخت فایل robots.txt در ابتدا باید با دستورات یا به اصطلاح Syntaxهایش آشنا باشید (که البته آشنا هستید. اگر این دستورات را فراموش کردید، کافیست همین مقاله را به سمت بالا اسکرول کنید تا دوباره این دستورات را مرور کنید).

خیالتان راحت باشد. من قصد ندارم دوباره این دستورات و توضیحات را تکرار کنم، فقط شما را به دیدن صحبت‌های گوگل درباره این دستورات دعوت می‌کنم. اگر خسته شده‌اید پیشنهاد من این است که یک فنجان چای برای خود بریزید، سپس ادامه مقاله را بخوانید. نگران نباشید، من همینجا منتظر شما هستم.

سینتکس های دستوری گوگل برای نوشتن فایل robots.txt

پس از آموزش نحوه ساخت فایل robots.txt، درباره بهینه سازی آن برای سئو صحبت می کنیم. خب، همانطور که می‌دانید برای برقراری ارتباط با ربات‌ها خزنده باید از دستور User-agent استفاده کنید.

برای آنکه دستور شما توسط همۀ ربات‌ها خوانده شود، باید پس از دستور User-agent، علامت * را قرار دهید:
User-agent: *
سپس، در خط پایین‌تر دستور Disallow را تایپ کنید، اما بعد از آن چیزی ننویسید.
Disallow:
تا اینجای کار دستورات شما به شکل زیر است:

User-agent: *
Disallow:

خب، شاید این دستورات بسیار ساده به نظر برسند اما همین دستورات، سیاست سئوی سایت شما را به کلی تغییر می‌دهند.

همچنین، شما می توانید فایل robots.txt خود را به سایت مپ xml لینک کنید. هرچند انجام این کار ضرورتی ندارد، اما اگر قصد انجام آن را دارید، باید دستور زیر را در ادامه وارد نمایید:
Sitemap: http://www.yoursite.com/sitemap.xml

اتصال فایل robots.txt به سایت مپ

همانطور که می‌بینید دیجیکالا دستور سایت مپ را در فایل robots.txt خود قرار داده است.

این دقیقاً ساختار ابتدایی تمام فایل‌های robots.txt است. خب، اگر می‌خواهید فایل robots سایت شما تغییرات اساسی در وضعیت سئوی شما ایجاد کند، با ادامه مقاله همراه باشید.

بهینه‌سازی فایل robots.txt برای سئو

چگونگی ویرایش و بهینه‌سازی فایل robots.txt ارتباط مستقیمی با محتوای وب‌سایت شما و سیاست‌های کلی سئوی سایت‌تان دارد. روش‌های بسیار زیادی وجود دارد که به وسیله آنها می‌توانید از این فایل بهترین بهره را ببرید.

در این قسمت می‌خواهیم رایج‌ترین شیوه‌های استفاده از فایل robots.txt را با هم بررسی کنیم. به یاد داشته باشید که از فایل robots.txt نباید برای مسدود کردن دسترسی صفحات خود از موتورهای جستجو استفاده کنید زیرا اگر این کار را انجام دهید، ربات‌ها قادر نخواهند بود ارزش و Link Juice این صفحات را محاسبه کنند (چرا که شما صفحه را به کل برایشان مسدود کردید). برای انجام این کار بهتر است از Meta Robot استفاده کنید که در ادامه برایتان توضیح می‌دهیم.

همانطور که توضیح دادیم، یکی از بهترین روشهای استفاده از فایل robots.txt، بهینه سازی مصرف Crawl Budget سایت است. با استفاده از این فایل می‌توانید به ربات‌های خزنده موتور جستجو بگویید که قسمت‌های بی‌اهمیت سایت‌تان را بررسی نکنند.

برای مثال اگر به فایل robots.txt سایت ما (novin.com) سر بزنید، متوجه خواهید شد که صفحه پنل ادمین سایت از دسترس ربات‌ها خارج شده است.

نمونه فایل robots.txt از سایت نوین

از آنجایی که از این صفحه برای ورود به Backend سایت استفاده می‌شود، بررسی و ایندکس کردنش توسط ربات‌های جستجو بی معنی است (اگر وب‌سایت‌تان بر روی سیستم مدیریت محتوای وردپرس است، می‌توانید از دستورات بالا برای فایل robots.txt خود استفاده کنید).

شما می‌توانید از همین دستورات مشابه برای جلوگیری از ورود ربات خزنده موتور جستجو به یک صفحه خاص از سایت‌تان استفاده کنید. برای این کار کافیست پس از دستور Disallow، آدرس URL آن صفحه که پس از com. قرار می‌گیرد را بین دو علامت مورب “/”  قرار دهید.

برای مثال اگر می‌خواهید که ربات خزنده به صفحه شما به آدرس http://yoursite.com/page وارد نشود، باید دستوری به شکل زیر را وارد نمایید:
Disallow: /page/
به همین سادگی! همچنین، اگر می‌خواهید یک فولدر یا دسته‌بندی سایت خود را از دسترس ربات‌ها خارج کنید، به همین شکل عمل می‌کنید:
Disallow: /blog/
برای عدم ورود ربات به یک صفحه وبلاگ:
Disallow: /blog/what-is-robots-txt-and-how-to-create-one/
برای خارج کردن دسترسی یک ربات خاص به یک تصویر از سایت‌تان از دستوری مشابه زیر استفاده کنید:
User-agent: Googlebot-Image
Disallow: /images/novin.jpg

همچنین، می‎توانید یک نوع فایل خاص را بر اساس فرمت از دید ربات‌های خزنده مخفی نگه دارید، برای مثال فایل‌های تصویری با فرمت SVG:
User-agent: *
Disallow: /*.svg$

چه نوع صفحاتی را از دید ربات‌های خزنده مخفی نگه داریم؟

شاید این سوال برایتان پیش آمده باشد که چه نوع صفحاتی از سایت‌تان نباید توسط موتورهای جستجو ایندکس شوند. خب، در ادامه برخی از مواردی که فایل robots.txt به دردتان می‌خورد را بررسی می‌کنیم.

حتما بخوانید:  تبلیغات گوگل یا ادوردز چیست؟

درست است که وجود محتوای تکراری در وب‌سایت معمولاً بد و برای سئو مخرب است، با این حال سناریوهایی وجود دارند که در آنها وجود محتوای تکراری ضروری و قابل قبول است.

برای مثال اگر یکی از صفحات مهم سایت‌تان را برای چاپ و پرینت تنظیم کرده‌اید، در حقیقت یک محتوای تکراری در سایت خود درست کرده‌اید. در چنین شرایطی می‌توانید به ربات‌های خزنده بگویید جهت جلوگیری از Duplicate شدن، نسخه قابل چاپ صفحه شما را ایندکس نکنند.

چنین شرایطی برای صفحات Split-Testing (یا همان A/B Testing) نیز وجود دارد. این صفحات معمولاً محتوایی یکسان با طراحی متفاوت دارند. برای مثال صفحات فرم یا صفحات تشکر از کاربر.

استفاده از این صفحات، معمولاً به افزایش سر نخ (Lead) منجر می‌شود. اما نکته‌ای که وجود دارد این است که برخی از این صفحات برای گوگل قابل دسترس هستند. دسترسی گوگل به این صفحات به این معنی است که بازدیدکنندگان دیگر روند فروش را تجربه نمی‌کنند و مستقیم به صفحه نهایی می‌روند.

با خارج کردن دسترسی موتورهای جستجو به این صفحات می‌توانید مطمئن شوید که تنها کاربران و خریدارانی که صلاحیت دارند این صفحات را مشاهده می‌کنند.

خب، فرص کنیم که چنین صفحه با آدرس http://yoursite.com/thank-you قابل دسترس است. با وارد کردن دستور زیر در فایل robots.txt می‌توانید آن را از دسترس ربات‌های خزنده خارج سازید:
Disallow: /thank-you/
از آنجایی که استفاده از فایل robots.txt هیچ قانون خاصی ندارد، فایل robots.txt شما، مخصوص وب‌سایت خودتان است. بنابراین بهتر است از سیاست کلی سئوی شرکت‌تان پیروی کنید.

دو دستور دیگر نیز وجود دارند که باید با آنها نیز آشنا باشید: nonindex و nofollow. (متا ربات‌ها را به یاد دارید؟)

خب، در ابتدای همین مقاله گفتیم که استفاده از فایل robots.txt به این معنی نیست که صفحات سایت شما ۱۰۰% ایندکس نشوند. گاهی ممکن است که یک ربات خاص از دستور شما تبعیت نکند. به این ترتیب ممکن است علی رغم دستور Disallow، صفحه مورد نظرتان سر از نتایج جستجو در بیاورد.

به طور عمومی، وب‌مستری که از robots.txt استفاده می‌کند، علاقه‌ای به بُروز این اتفال نداد. به همین دلیل، شما باید از دستور nonindex استفاده کنید. این دستور، در کنار دستور Disallow، اطمینان حاصل می‌کند که ربات‌ها به وب‌سایت شما سر نمی‌زنند و آن را ایندکس نمی‌کنند.

اگر شما صفحاتی دارید که نمی‌خواهید به هیچ عنوان بررسی و ایندکس شوند، بهتر از دو دستور disallow و nonindex استفاده کنید:
Disallow: /landing-page/
Nonindex: /landing-page/

با استفاده از دستورات بالا، مطمئن خواهید بود که صفحه مورد نظر در نتایج جستجو دیده ‌نمی‌شود.

در آخر نیز، دستور nofollow وجود دارد. این دستور، همان دستور nofollow در لینک بیلدینگ است. به طور خلاصه، استفاده از این دستور در فایل robots.txt به موتورهای جستجو می‌گوید که هیچ یک از لینک‌های موجود در صفحه را دنبال نکنند.

با این حال، استفاده از کد nofollow در این مبحث کمی با لینک بیلدینگ تفاوت دارد چرا که این دستور به عنوان بخشی از فایل robots.txt تعریف نشده است. در هر صورت، از آنجایی که دستور nofollow ربات‌ها را تعلیم می‌دهد، نمی‌توان گفت که مفهوم جدیدی را به سئوی سایت شما انتقال می‌دهد. تنها تفاوت این دستور در اینجا، محل استفاده از آن است.

کدهای منبع صفحه‌ای که می‌خواهید ایندکس نشود را پیدا کنید و مطمئن شوید که ابتدا و انتهای تگ‌های Heading (همان <head>) را پیدا می‌کنید.
<head>
</head>

سپس، کد زیر را بین دو تگ Heading وارد نمایید:
<meta name=”robots” content=”nofollow”>
بنابراین، کد شما باید این شکلی باشد:
<head>
<meta name=”robots” content=”nofollow”>
</head>

نکته‌ای که باید به آن توجه کنید این است که این کد حتماً باید بین تگ‌های <head> قرار بگیرد. از این ترفند می‌توانید برای صفحات Split-Testing خود نیز استفاده کنید.

همچنین، اگر می‌خواهید از هر دو کد nonindex و nofollow به صورت همزمان استفاده کنید، دستور زیر را بین تگ‌ها قرار دهید:
<meta name=”robots” content=”noindex,nofollow”>
این خط کد، دو دستور را همزمان به ربات‌ها می‌دهد.

آزمایش فایل robots.txt در بخش robots.txt tester گوگل وبمستر

حال که فایل robots.txt خود را ساخته‌اید، زمان آن است که از درستی عملکرد آن مطلع شوید. گوگل در ابزار گوگل وبمستر یا همان کنسول جستجوی خود، ابزاری رایگان به نام robots.txt tester را در اختیار وب‌مسترها قرار داده است.

برای آزمایش فایل خود ابتدا وارد اکانت گوگل وبمستر خود شوید.

آزمایش فایل robots.txt در بخش robots.txt tester گوگل وبمستر

وب‌سایت مورد نظر خود را انتخاب کنید و از منوی سایدبار بر روی گزینه Crawl کلیک کنید.

آزمایش فایل robots.txt در بخش robots.txt tester گوگل وبمستر

پس از باز شدن کشوی Crawl، ابزار robots.txt tester را مشاهده می‌کنید. بر روی آن کلیک کنید.

آزمایش فایل robots.txt در بخش robots.txt tester گوگل وبمستر

اگر به طور پیش فرض، دستوری در باکس مورد نظر وجود دارد، آن را پاک کرده و دستورات جدید را وارد نمایید.

آزمایش فایل robots.txt در بخش robots.txt tester گوگل وبمستر

در نهایت، پس از وارد کردن دستورات، بر روی گزینه Test که در پایین صفحه در سمت راست قرار دارد، کلیک کنید.

آزمایش فایل robots.txt در بخش robots.txt tester گوگل وبمستر

اگر نوشته دکمه از Test به Allowed تغییر یافت به این معنی است که فایل robots.txt شما معتبر است.

در آخر، فایل robots.txt خود را در دایرکتوری root وب سایت آپلود کنید (یا دستورات را جایگزین فایل موجود کنید). حال دیگر وب‌سایت شما یک فایل robots.txt قدرتمند دارد که می‌تواند ربات‌های خزنده را به خوبی در وب‌سایت هدایت کند.

نتیجه‌گیری

ما در نوین، همیشه دوست داریم ترفندها و تکنیک‌های سئو را با کاربران خود در میان بگذاریم. فکر می‌کنم خواندن این فایل واقعاً برای وب‌مسترهای تازه کار مفید بوده باشد. اگر واقعاً از خواندن این مقاله لذت بردید، دیدگاه‌تان را در پائین همین صفحه ثبت کنید.

با ساخت فایل robots.txt نه تنها وضعیت سئوی خود را بهبود می‌بخشید، بلکه تجربه کاربری خوبی را در اختیار بازدیدکنندگان سایت‌تان قرار می‌دهید.

اگر موتورهای جستجو بتوانند Crawl Budget خود را به خوبی استفاده کنند، مطمئناً محتوای وب سایت شما را به بهترین شکل ممکن در نتایج جستجو به نمایش خواهند گذاشت. این موضوع به این معنی است که وب‌سایت شما بسیار بهتر از قبل در نتایج جستجو دیده خواهد شد.

همچنین، ساخت فایل robots.txt زمان چندانی را از شما نمی‌گیرد و معمولاً اگر یک بار آن را بسازید، دیگر آن را تغییر نخواهید داد.

البته باید توجه داشته باشید که استفاده نادرست از فایل robots.txt می‌تواند به ضرر سایت شما تمام شود. بنابراین پیشنهاد می‌کنیم اگر در این زمینه تجربه ندارید، پیش از ساخت فایل با یک متخصص سئو مشورت کنید.

به علاوه اینکه داشتن یا نداشتن فایل robots.txt کاملاً به سیاست‌های کلی وب‌سایت شما بستگی دارد و حتی برخی ترجیح می‌دهند که در وب‌سایت‌شان از چنین فایلی استفاده نکنند که اصلاً عیب نیست.

به هر حال، فرقی ندارد که برای اولین یا دهمین سایت‌تان فایل robots.txt می‌سازید، استفاده از این فایل تغییر بزرگی در سئوی وب‌سایت شما ایجاد می‌کند. اگر تا به حال از این فایل استفاده نکرده‌اید، پیشنهاد می‌کنم استفاده از آن را یک بار تجربه کنید.

در صورتی که تجربه خاصی در زمینه استفاده از این فایل دارید یا سوالی برایتان به وجود آمده است، نظرات و دیدگاه‌های خود را با ما به اشتراک بگذارید.

موفق باشید!