Öncelikle yeni bir metin belgesi oluşturun ve adını
robots.txt olarak değiştirin şimdi içine yazacağımız komutları açıklayacağız.
Önemli Not:
- Büyük küçük harf bile etkilidir elle yazıyorsanız dikkatli olun komutları hatalı yazmanız daha sonradan düzeltilebilir ancak hatalı indexlenmiş sayfalar çok geç düzelmektedir.
- robots.txt dosyası sitenin kök dizininde olmalıdır "http://siteadresi.com/robots.txt"
- * işareti joker karakterdir değişkenleri belirtmek için kullanılır. Pek çok yerde kullanacaksınız.
User-agent izin verilecek yada engellenecek botların isminin belirtileceği yerdir.
Şimdi örneklendirme yapalım.
User-agent: Googlebot ifadesiyle Google botlarını etkileyecek komutlar verileceği anlatılıyor.
User-agent: DeepCrawl ifadesiyle DeepCrawl botlarını etkileyecek komutlar verileceği anlatılıyor.
User-agent: Googlebot
User-agent: DeepCrawl ifadesiyle hem Googlebot hemde DeepCrawl botları için komutlar verileceği anlatılıyor birden fazla bot eklemek istiyorsanız alt alta eklemeniz gerekiyor virgülle falan ayırmayın.
User-agent: * ifadesiyle tüm botları etkileyecek komutlar verileceği anlatılıyor. * bir değişkendir ve yerine her şey gelebilir.
Allow izin verilecek dizinleri yada sayfaları belirtmek için kullanılır.
Şimdi örneklendirme yapalım.
Allow: / ifadesiyle sitenizin kök dizinine izin vermiş oluyorsunuz botlar tüm siteyi dolaşabilir.
Allow: /dizin1/ ifadesiyle dizin1 klasörü ve sonrasındaki alt klasörlere izin vermiş oluyorsunuz.
Allow: /dizin1/ornek.html ifadesiyle sadece ornek.html sayfasına izin vermiş oluyorsunuz dizin1 deki diğer dosyalara izin verilmez.
Disallow taramaya izin verilmeyen dizinleri veya sayfaları belirtmek için kullanılır bu komutun olduğu dizinler taranmamalıdır ancak hiç taranmayacağı anlamına gelmez google aramalarında gözükmemesi için
noindex etiketi kullanmalısınız.
Şimdi örneklendirme yapalım.
Disallow: /dizin1/ ifadesiyle dizin1 ve sonrasındaki alt klasörlerin tamamı yasaklanmış olur
Disallow: /ornek.html ifadesi ile sadece ornek.html sayfası yasaklanmış olur.
Simdi yasaklanmış bir dizininde sadece bir sayfaya nasıl izin verileceğine bakalım
Disallow: /dizin1/ ifadesiyle dizin1 i yasakladik hemen ardından
Allow: /dizin1/ornek.html ifadesi ile dizin1 içindeki ornek.html sayfasına izin vermiş olduk.
Şimdi de Blogger için bir engelleme örneği yapalım. Blogger da mobil kullanım engellense bile mobil kullanıldığı zaman her sayfanın sonuna ?m=1 eklenmektedir. Botlarda bu sayfaları url adresi değiştiği için aynı içeriğe sahip kopya sayfa olarak gösterecektir kısacası birebir aynı içeriğe sahip sayfalar varsa bunlar engellenmelidir ufak tefek farklar varsa engellenmeyebilir. Sonunda m=1 olan tüm sayfaları Disallow: /*m=1 ifadesi ile engelleyebiliriz / ve m=1 ifadesi arasındaki * sitenin kök dizini ile her sayfanın sonuna eklenen m=1 arasında kalan bölümü gösterir * karakterini bu örnekteki gibi kullanarak her ihtiyaca göre robots.txt oluşturabilirsiniz.
Unutmadan robots.txt in en sonuna varsa site haritası eklemenizde fayda var böylece sitenize gelen tüm botlara ziyaret etmesi gereken konu başlıklarını da göstermiş olursunuz.
Sitemap: https://siteadresi.com/sitemap.xml
Son olarak bloğumda kullandığım robots.txt örneğini paylaşmak istiyorum.
User-agent: Mediapartners-Google
User-agent: *
Allow: /
Disallow: /*m=1
Sitemap: https://vericanavari.blogspot.com/sitemap.xml
Bundan sonrası artık biraz düşünerek gerçekleşecek önce ihtiyacınızı belirleyeceksiniz daha sonra robotların erişmesi ve erişmemesi gereken yerleri belirleyip işe girişeceksiniz. Etkili bir robots.txt oluşturmak için mutlaka Google Search Console kullanmalısınız eğer sitenizde dizine eklenme ile ilgili bir sıkıntı yaşarsanız kapsam sorunları içerisinde uyarı görürsünüz hatanın ne olduğunu bildikten sonra çözmek basittir. Örneğin Blogger in orjinal robots.txt dosyasında etiketler engelli gelmektedir ancak sayfa içi linklemelerden dolayı etiketlerin ana sayfaları diğer yazılardan daha değerli görünmekte ve google aramalarda daha üst sıralarda çıkmaktadır ancak Blogger etiketleri engellediği için etiketler aramalarda açıklamasız olarak görünmektedir. Eğer aramalarda yasaklamamıza rağmen görünüyorsa düzgün görünmesi ziyaretçilerin ilgisini çekmek için daha iyidir bu nedenle etiketlerdeki engellemeyi robots.txt imden kaldırdım.
Yine Google Search Colsole'de "Kullanıcı tarafından seçilen standart sayfa olmadan kopya" başlığının altında hepsinin sonu ?m=1 ile biten mevcut sayfalarımın Blogger tarafından Mobil görünüm için otomatik oluşturulan farklı linkler olduğunu gördüm botlar farklı bir sayfaymış gibi aynı içeriği tekrar kontrol ediyor boş yere siteyi ikinci defa dolaşmış oluyor ve sonucunda bu hatayı tespit edebiliyor bu nedenle hanemize eksi puan verip vermediğini anlayamadım bunun için uzun denemeler yapmak gerekiyor ancak bunun tespiti için uğraşan biri değerlendirmesini de yapar diye düşünüyorum bu nedenle sadece adresin değiştiği içeriğin aynı kaldığı sayfaları engellemeniz faydanıza olacaktır.
Adresin değiştiği sitenin aynı kaldığı linklere bir örnek daha buldum: Yorum Linkleri mevcut sayfanızın sonuna eklenen birkaç fazlalık ile yoruma odaklanan link oluşturulmuş ancak içerisinde # kullanmadıkları için botlar bunu sayfa içinde ilgili bölüme gitme linki yerine yeni bir link olarak düşünüyor. Search Console'da yönlendirmeli sayfa uyarısı ile hariç bırakılıyor bu sayfa hariç bırakıldığı için düzenleme yapmasanız da olur ancak her şey doğru olsun botlar yok yere yorulmasın diyorsanız "https://vericanavari.blogspot.com/2019/03/idm-is-corrupt-hatas-nedir-nasl-cozulur.html?showComment=1553216093684" tarzındaki linkleri engellemek için Disallow: /*showComment* komut satırını robots.txt içinde kullanabilirsiniz.