SEO Performansı Açısından Log Dosyası Analizi

SEO Performansı Açısından Log Dosyası Analizi Yapmanız İleri Seviye ve Gözden Kaçan Kritik SEO Hatalarının Önüne Geçmenizi Sağlar.

Muhittin Bilgin
Muhittin Bilgin - 20 Haziran, 2022 - 10 min read
SEO Performansı Açısından Log Dosyası Analizi

SEO performansı açısından log dosyası analizi, web site sunucusunun aldığı erişim isteklerinin tutulduğu dosyada, arama motoru botlarının sitemize eriştikten sonra nasıl davrandığı konusunda bilgi sahibi olmamızı sağlar.

Bu içeriğimizde SEO için detaylı bir log analizinin nasıl yapılır? Log analizi yapmanın faydaları nelerdir? ve farklı senaryolu örnekler ile ele alacağız.

Log Dosyası Nedir?

Log dosyaları, web sitesine kimin ne zaman, hangi adresten hangi içeriğe eriştiğinin kaydının tutulduğu bir dosyadır.

Log dosyası nedir?

Web sitesine erişenlerden kastımız sadece müşteriler değil aynı zamanda Googlebot ve diğer arama motoru botu botları yer almaktadır.

Log dosyası, sunucular tarafından toplanır ve belirli bir süre boyunca tutulur, daha sonrasında üzerine yeni kayıt yazılır.

Log Dosyası Hangi Verilere Sahiptir?

Bir web sitesine erişim sağlayan birinin log dosyasında kaydı şu şekilde gözükmektedir:

27.300.14.1 – – \[14/Sep/2017:17:10:07 -0400] “GET https://allthedogs.com/dog1/ HTTP/1.1” 200 “https://allthedogs.com” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Yukarıda yer alan veriler haricinde, sunucu yapılandırmasına göre farklı bilgilerde tutulabilir. Örneğin, istek yapıldığında ne kadar bir dosya boyutu indirildi ya da sayfanın yüklenmesi için geçen süre şeklinde verilerde yer alabilir.

27.300.14.1 – – \[14/Sep/2017:17:10:07 -0400] “GET https://allthedogs.com/dog1/ HTTP/1.1” 200 “https://allthedogs.com” “Mozilla/5.0 (compatible; Googlebot/2.1; +<http://www.google.com/bot.html>)”

Siteye erişim sağlayan kişinin IP adresi

  • İsteğin yapıldığı tarih ve saat
  • Siteye erişim yöntemi GET veya POST
  • Erişilen sayfanın URL adresi
  • İsteğin başarılı veya başarısız olduğunu gösteren, HTTP durum kodu.
  • Tarayıcı ve bot (örneğin, mobil veya masaüstünden geliyorsa) dahil olmak üzere, istekte bulunan istemci hakkında ek bilgiler içeren Kullanıcı Aracısı.

Google, web sitenizi taramak ve web sitenize erişmek için kullandığı IP adreslerinin tam listesini Googlebot kullanıcı aracıları altında yayınladı.

Googlebot IP Adresi Listesi

Google 2021 yılı Kasım ayında, web siteni taramak ve web sitesine erişmek için kullandığı IP adreslerinin tam listesini Googlebot kullanıcı aracıları altında yayınladı.

https://developers.google.com/search/apis/ipranges/googlebot.json adresinde yer alan IPv4 protokolünde ki IP adresleri 66. ile başlamaktadır. 

Log Dosyası Nasıl Erişilir?

Log dosyaları, daha önceden de bahsettiğimiz gibi web sunucuları (hosting) içerisinde yer almaktadır.

Her web sunucusunun farklı bir yapısı olduğunda dolayı, log dosyalarına nasıl erişebileceğiniz bulmanın en kolay yolu Google'a bakmaktır.

Web sitesinin kullandığı teknolojiye bağlı olarak bazen log dosyaları CDN'ler içerisinde de yer alabileceğini belirtmek isterim.

nginx, apache, IIS server şekilde sunucu yapıları bulunmaktadır. Her sunucunun kullanacağı yönetim paneli farklı olabilmektedir. Aşağıda yer alan ikisi dünya genelinde web hosting için en çok kullanılan iki paneldir. 

Cpanel için log dosyası konumu: 

Cpanel Log Dosyası Yeri

Plesk panel için log dosyası konumu:

Plesk Panel Log Dosyası Yeri

SEO Açısından Log Dosyası Analizi Neden Önemlidir?

Web sitemize erişen tüm kullanıcıların ve arama motoru botlarının gerçekte neler ile karşılaştığı hakkında yorum yapabilmek için log analizi oldukça önemlidir. 

Screaming Frog ve DeepCrawl gibi araçlar web sitesinde yer alan bağlantıları takip etmektedir. Arama motoru botları ise geçmişte karşılaştığı durumları tekrar kontrol etmektedir. 

Örneğin; X sayfası 2 gün önce vardı ama şuan yok diyelim SEO araçları sadece anlık bağlantıları kontrol edeceğinden 2 gün önceki kayıt olmadığından bir hata ile karşılaşmayacak, fakat arama motoru botları geçmiş URL’lerin durumunu merak etmekte kontrol sağlamaktadır. 

Log dosyası analizi sayesinde, özellikle arama motoru botlarının şu durumlar ile karşılaşıp karşılaşmadığı yorumunu yapabiliriz.

  • Web sayfamızda hangi sayfaların daha sık tarandığı ve önemli olarak değerlendirdiği hakkında yorum yapılabilir.
  • Sunucu hataları ile eğer karşılaşıyorsa, gerekli aksiyonları alabilirsiniz.
  • Web sitesinde yer alan dahili bağlantısı bulunmayan, sayfalar SEO araçları ile fark edilmiyor. Fakat log dosyalarına yer alan verilere göre hangi sayfaları taradığını görebiliriz.

Log Dosyası Analizi İçin Yardımcı Araçlar

Log dosyası analizinde bize yardımcı olabilecek bazı yardımcı araçlar:

  • Splunk.
  • Logz.io.
  • Screaming Frog Log File Analyser - ücretli ve ücretsiz sürümü şeklinde indirme mevcut, ücretli sürümden farklı ücretsiz sürümde 1000 satır okumaktadır.
  • Semrush Log File Analyzer

GSC Tarama İstatistikleri Raporu 

GSC Tarama İstatistikleri Raporunda, Google web sitesini nasıl taradığı hakkında bazı bilgiler sunmaktadır. Search console da yer alan veriler, taranan bazı örnek sayfalar ve istediği tarih/saat ile birlikte paylaşır.

Burada yer alan verilen, log dosyasında yer alan verilerden daha kapsamlı ve kullanışlı değildir.

Peki, GSC üzerinde “Tarama İstatistikleri Raporuna” nasıl erişiriz?

GSC hesabınıza girdikten sonra, Settings > Crawling > Open Report adımlarını takip etmeliyiz. 

Google Search Console Tarama İstatistikleri Raporu

GSC Raporunda Neleri Dikkate Almalıyız?

Google Search Console İstatistikleri Raporunda Neye Dikkat Etmeliyiz?

Host status alanı, GoogleBot’un, web sitesini tararken bir sorunla karşılaşıp karşılaşmadığını belirtmektedir.

Host Status Durumu İçi Yeşil Daire

Bot’un web sitesini tararken son 90 günde bir sorun yaşamadığını belirtir.

Bot’un web sitesini tararken son 7 günden önce bir sorun yaşadığını belirtir. Bu durum çözülmüşte olabilir. İşlem gerekli olup olmadığını anlamak için rapor detayına bakmalıyız.

Host Status Durumu İçi Kırmızı Daire

Bot web sitesini tararken kısa bir zaman içinde önemli bir tarama sorunu ile karşılaştığını belirtmektedir. Burada yapılması gereken robots.txt dosyası, DNS çözümlemesi ve sunucu kullanılabilirlik durumlarını kontrol etmelisiniz.

GSC Kısmi Tarama Verileri

Durum kodlarını ve dosya türü isteklerinin dökümünü, ayrıca hangi Googlebot türünün (Masaüstü, Mobil, Reklam, Resim vb.) istekte bulunduğunu ve bunların yeni bulunan (keşif) veya daha önceki sayfalar olup olmadığını görebileceğimiz bir rapordur.

Log Dosyası Analizi Nasıl Yorumlanır?

Log dosyası analizine başladığımızda kullandığımız araçların filtreleme özelliklerinin yanı sıra ayrıca analiz sonucunda şu sorulara yanıt bulabiliriz.

  • Sitemin ne kadarı arama motorları tarafından gerçekten taranıyor?
  • Sitemin hangi bölümleri taranıyor/taranmıyor?
  • Sitem ne kadar derinde taranıyor?
  • Sitemin belirli bölümleri ne sıklıkla taranıyor?
  • Düzenli olarak güncellenen sayfalar ne sıklıkla taranıyor?
  • Yeni sayfalar arama motorları tarafından ne kadar sürede keşfediliyor ve taranıyor?
  • Site yapısı/mimari değişikliği arama motoru taramasını nasıl etkiledi ?
  • Web sitem ne kadar hızlı taranıyor ve kaynaklar ne kadar hızlı indiriliyor?

Log Analizi İçin 7 Farklı Senaryo Örnekleri

Arama motorlarının sitemizde nasıl davrandığını ve SEO performansını iyileştirmek için neler yapabiliriz.

  • Tarama davranışını anlayın
  • Web sitesinde aslında hangi sayfa daha önemli
  • Tarama bütçesini optimize edin
  • Tarama hatası olan bölümleri keşfedin
  • Google'ın taramadığı dizine eklenebilir sayfaları keşfedin
  • Yetim sayfaları keşfedin
  • Site taşımasında log dosyasının yardımı

Tarama Davranışını Anlayın

Log analizi için en iyi başlangıç noktası kesinlikle, Google sitemizi tararken hangi HTTP durum kodu ile karşılaştığı, hangi botun sitemizi daha çok ziyaret ettiği ve hangi dosya türlerini taradığını bilmemiz gerekir.

Semrush Log Analyzer verilerine göre aşağıdaki görselde şu şekilde yorumlarız.

Tarama Davranışını Anlayın

2XX durum koduna sahip URL ve dosyalar, olması gereken ve istenen davranışlardır. HTML, CSS ve JS dosyaları 200 durum yanıt koduna sahip olmalı, çünkü botun sayfayı oluşturması gerekmektedir.

4XX durum koduna sahip URL’ler, daha önceden de sahip olduğumuz fakat web sitesinden silinen URL’ler olabilir. Google bazen 404 veren sayfaları tekrar taramak ister. Bu URL’lere bağlantı vermediğimiz sürece bir problem olmayacaktır.

3XX durum koduna sahip URL’ler web sitesinde, URL'leri yeniden yönlendirmek için güncel bazı bağlantılar içeriyor veya geçmişte yer alan bağlantılardır. Farklı bir durum ise başkalarının verdiği yanlış dış bağlantılar.

Google bir web sitesinde yer alan 3XX ve 4XX bağlantıları çok sık taramaktadır. Google tarafından tavsiye edilen özellikle site taşımalarından sonra bir yıl boyunca 3XX yönlendirmelerin kalmasıdır. 

Bot aslında burada bize bir şans veriyor, 3XX ve 4XX bağlantıları önemseyip önemsemediğimizi kontrol ederken, ayrıca sayfa eskiden iyi bir hite sahipse ve yeniden aktif olduysa taramaya devam edecektir.

Web Sitesinde Hangi Sayfa Daha Önemli

Google için ana sayfa oldukça önemli ve değerlidir. Ana sayfanın SEO stratejisine göre doğru kurgulanmış olması bizim için önemli sayfaların taranması sağlar. Peki bu durum Google içinde aynı şekilde geçerli mi?

Web Sitesinde Hangi Sayfa Daha Önemli

Google burada bir siteyi ne kadar sıklıkla tarayacağı konusunda karar verirken o siteye verilen en çok bağlantıları dikkate almaktadır. Eklenti’nin oluşturmuş olduğu bağlantı yapısından dolayı bir site en sık tarayacağı sayfalardan biri de ingilizce sürümü olmuştur. Yine aynı şekilde Ana sayfayı her 2 saatte bir kontrol etmektedir. 

Web Sitesini Bot Tararken Hangi Sayfa Daha Önemli

Tarama Bütçesini Optimize Edin

Google tarafından yapılan resmi açıklamalarda da belirtildiği gibi tarama bütçesi milyonlarca sayfası olan büyük siteler için kritik derecede önemlidir. 

Orta ve küçük web siteleri için çok fazla önemli olmasa da, tarama bütçesi optimizasyonu sayesinde dahili bağlantı yapınızı ve tarama verimsizliklerinden kurtulursunuz.

Arama motoru botlarının, bir web sitesinin tarama bütçesini alakasız URL'lere harcayıp harcamadığını nasıl öğreniriz?

  • Parametreye sahip URL’lere botlar tarafında çok fazla taranma isteği bulunuyorsa, arama motoru botlarının bu URL’lere sayfa genelinde nereden ulaştığını bulup, bağlantıyı kaldırınız. /en/urun-etiketi/kutu-ici-adet-24/page/19/?orderby=date
  • Google eğer ki, web sitesinde yer alan diğer dosya türlerini (özel yazı tipi) çok sık tarıyorsa, o zaman yapmanız gereken HTTP Cache-Control özelliğinin süresini kontrol etmeniz gerekir.
  • Çok sayıda 301, 304, 307 veya 308 HTTP durum koduna sahip URL yer alıyorsa, bu URL’lerin bulunduğu sayfada, nihai URL ile değiştirilmesi gerekir.
  • Robots.txt’de yer alan yönergeye arama motoru botları uyuyor mu? Eğer ki sizin taramasını istemediğiniz URL’i botlar tarıyorsa robots.txt’de bir yazım yanlışı yapmışsınızdır.

Tarama Hatası Olan Bölümleri Keşfedin

Google bir web sitesinde çok sayıda 4XX ve 5XX HTTP durum kodu ile karşılaştığında bu durumu tarama hatası olarak değerlendirir ve kötü deneyim yaşar. Bu durum tarama bütçesini boşa harcamakla kalmaz, bazı zamanlarda Google taramayı yarıda kesebilir. Benzer şekilde web sitesinde yer alan 4XX ve 5XX durum kodları kullanıcılara da kötü bir deneyim yaşatmaktadır.

Web sitesinde yer alan 2XX durum koduna sahip olan URL’ler ile 4XX ve 5XX durum koduna sahip olan URL’leri karşılaştırmalıyız. Hataya sebebiyet veren sayfaların, URL path’leri sayesinde hangi bölümlerde hata olduğunu görebiliriz.

Google’ın Taradığı Fakat Dizine Eklenemediği Sayfaları Keşfedin

Web sitesinde yer alan ve Google tarafından dizine eklenebilecek sayfalar, GoogleBot tarafından sık sık taranmaktadır. Peki dizine eklenebilir durumda olan ama seyrek taranan sayfaları nasıl bulabiliriz.

Bu tür seyrek taranan sayfaları bulmak için log analizinde yer alan “Crawl Frequency” alanından faydalanmaktayız. Eğer bu alanda “XX Weeks Ago” gibi bir tarama sıklığı yazıyorsa seyrek taranan sayfalar olarak adlandırılır.

Googlebot'un taradığı ama dizine eklenemeyen sayfaları keşfedin

Önem verdiğimiz dizine eklenebilir sayfaların tarama sıklığını artırmak:

  • Seyrek taranan URL’ler site haritasında yer almıyorsa, site haritasına ekleyin.
  • İlgili URL’lere sık taranan sayfalardan dahili bağlantı verin.
  • İçeriğinizi güncel tutun ve kaliteli içerikler ekleyin.
  • Mümkünse başka sitelerden ilgili sayfalara backlink alın.

Yetim Sayfaları Keşfedin

Yetim sayfalar, web sitemizde yer alan ama diğer sayfalardan bağlantı almayan sayfalar olarak tanımlayabilir. Log analizi ile yetim sayfaları bulmak için şu adımları uygulayabiliriz:

  • 200 durum koduna sahip olan sayfaları filtrelemek
  • Dosya türü olarak “HTML” seçmeliyiz. (Sayfa olmayan ve parametreye sahip olan URL’lerden de ayırmak için)
  • İçeriği bulunan sayfalar ve dahili bağlantıya sahip olan sayfalar Google tarafından daha sık taranacağından, tarama sıklığı bize yardımcı olacaktır.

Site Taşımasında Log Dosyasının Yardımı

Web sitesi taşımaları bildiğimiz üzere SEO açısından oldukça riskli ve dikkat edilmesi gereken bir süreçtir. Web siteleri taşıma sırasında log dosyalarından şu şekilde faydalanabiliriz.

  • Taşıma sırasında web sitemizin arama motoru botları tarafından en sık taranan ve önemli sayfaları nasıl bir yönlendirme yapmamızı ve yeni sitede URL yapısını nasıl korumamız gerektiği konusunda bilgi verir.
  • Taşıma sonrasında yaşanacak muhtemel trafik kaybından dolayı, Google’ın sitemizde hangi sayfaları taradığını hangi sayfalarımızı tarayamadığını, keşfedemediği konusunda bilgi sahibi oluruz.

Log Analizi Dosyası ve SEO Optimizasyonu

Log analizi dosyasını kullanarak web sitemizde gözümüzden kaçan kritik SEO hatalarının önüne geçebiliriz. Bu sayede yeni stratejiler oluşturmamıza katkı sağlar.

  • 200 OK HTTP durum koduna sahip olmayan sayfalar site haritasından kaldırılmalıdır.
  • Arama motorları için yararlı içeriğe sahip olmayan sayfaların taranması engellenmelidir.
  • Önemli sayfalarımız arasında noindex işaretli sayfa olup olmadığı konusunda bilgi verir
  • Belirli sayfaların önemini vurgulamak için canonical etiketler ekleyin.
  • Sık taranmayan sayfalara, diğer sayfalardan dahili bağlantı ekleyin.
  • Dahili bağlantıların her zaman 200 durum koduna sahip ve dizine eklenebilir sayfalara bağlantı verdiğinden emin olun.
  • Tarama bütçesi boşa harcayan şeylerden kurtarır ve site yapısını optimize etmemizi sağlar.
  • Site kategorilerine yönelik tarama sıklığını inceleyin ve bunların düzenli olarak tarandıklarından emin olun.

Sonuç

SEO için log dosyası analizi yapmanız web siteniz için farklı stratejiler ile başarıya ulaşmanızı sağlayacaktır. 

SEO performansı açısından log dosyası analizi  konusunda yayınladığımız blog içeriğimizi faydalı bulduysanız, diğer insanlarında erişebilmesi için sosyal medya hesaplarınızda paylaşarak bizlere destek olabilirsiniz.