Birden çok web sitesinden veri çekme ve daha sonra çekilen bu verileri birbiri ile karşılaştırıp istatistiki bir sonuca ulaştırmanın en iyi yolu nedir acaba? Hangi programlama platformu ve teknigi kullanilabilir?

soruldu: 06 May '14, 11:59

doluca10's gravatar image

doluca10
36114
cevap kabul oranı: 0%

değiştirildi: 06 May '14, 23:37

cagcak's gravatar image

cagcak
16271320

4

soruyu daha açık sormalısınız, veri çekmekten kastınız nedir, verinin formatı nedir? veri sağlama yöntemleri nedir?

(06 May '14, 15:30) dreampowder dreampowder's gravatar image

Soru çok genel olmuş. Burada iki önemli durum var. Birincisi web sitelerinden veriyi nasıl çekeceksiniz. İkincisi ise bu verileri karşılaştırıp istatistiklemeniz.

Eğer veri çekmek istiyorsanız. Web Crawling veya Web Scraping yapabilirsiniz.

Web Tarayıcısı gibi Internette gezinen sistematik bir internet robotu diyebiliriz aslında. Web Crawler'lar Web spider, automatic indexer, Web scutter olarakta adlandırılmakta. Web arama motorları web sitlerinin içeriklerini elde etmek için web crawler veya spidering yazılımları kullanıyorlar.

Crawler, siteleri ziyaret etmek için, seeds denilen url listesi kullanır. En az bir tane seed olmalıdır. Crawler ziyaret ettiği url'de hyperlinks taraması yapar. Bulduğu linkleri listeye ekler. Bu listeye crawl frontier denir. Frontier daki url'ler recursively olarak kümeleri(sayfları) ziyaret edilir. Eğer daha performanslı çalışmak için ziyaret edilen web siteleri kopyalayabilir ve bilgiler bu kopya sayfalardan çekebilirsiniz. Aynı şekilde arama motorlarıda web sitelerini crawler ederek kopyalar ve indexler.

Mimarisi:

alt text

Bunu şuan için en iyi Google yapıyor. Open source olarak bu işi yapabilmeniz için kullanabileceğiniz bir çok kütüphane mevcut.

Tavsiyem Crawler4j veya onun gibi bir kütüphane kullanman. Ben şimdi bir projemde crawler4j'yi kullanmaktayım. Kullanımı oldukça rahat. Artıları:

Multi-Threaded, sayfa deringiliği, maksimum sayfa boyutu, her request arasında bekleme zamanı belirleyebilme, maksimum ziyaret edilecek sayfa sayısı gibi...

permanent link

cevaplandı: 07 May '14, 03:49

MDemir's gravatar image

MDemir
2.1k173445
cevap kabul oranı: 24%

değiştirildi: 14 May '14, 04:59

Doğrusu sorunun genişliği noktasında çok haklısınız.Ama verdiğiniz bilgiler ve ayirdiginiz zaman için çok teşekkür ederim.Sorudaki eksik tanımlama içinde affınızı dilerim..daha geniş belirtmek gerekirse rast gele sitelerden değil belli olan yaklaşık 60 siteden veri çekmek istiyorum.yani arama moturu mantığından daha farklı bir durum diye düşünüyorum. Sık sık güncellenen bu sitelerden çekmek istediğim veriler sayısal türdedirler. verinin formatlarının ne olduğunu bilmiyorum. Doğrusu bu proje benim için aynı zamanda bir çok şeyi öğrenme sürecide olacak :)

(07 May '14, 15:04) doluca10 doluca10's gravatar image
1

Seeds listenize ziyaret etmek istediğiniz web sitelerin verebilirsiniz. Sayfalardan veri çekmek içinde JSOUP veya benzeri bir kütüphane kullanmanızı tavsiye ederim..

(14 May '14, 05:02) MDemir MDemir's gravatar image
1

@MDemir, elinize sağlık çok güzel bir yazı olmuş.

(14 May '14, 05:43) AliRıza Adıyahşi ♦ AliR%C4%B1za%20Ad%C4%B1yah%C5%9Fi's gravatar image
Cevabınız
toggle preview

Bu soruyu takip et

E-Posta üzerinden:

Üyelik girişi yaptıktan sonra abonelik işlemlerini yapabilirsiniz

RSS üzerinden:

Cevaplar

Cevaplar ve Yorumlar

Yazı Formatlama

  • *italic* ya da _italic_
  • **bold** ya da __bold__
  • link:[text](http://url.com/ "başlık")
  • resim?![alt text](/path/img.jpg "başlık")
  • liste: 1. Foo 2. Bar
  • temel HTML etiketleri de kullanılabilir

Bu sorunun etiketleri:

×10
×2

Soruldu: 06 May '14, 11:59

Görüntüleme: 1,015 kez

Son güncelleme: 14 May '14, 05:43

powered by BitNami OSQA