Merhaba,

Bir sitenin sitemap.xml sayfasını crawl edip linkleri aldım. Almış olduğum bu linkerin içeriklerini de crawl etmek istiyorum. Nasıl yaparım acaba?

Teşekkürler

soruldu: 10 Ağu '15, 06:56

limitless's gravatar image

limitless
0112
cevap kabul oranı: 0%


Siteyi taramak için crawler4j kütüphanesini kullanabilirsin. https://code.google.com/p/crawler4j/wiki/Configurations.

Belirlenen linklere gitmek için xsoup kutuphanesini kullanabilirsin. Xsoup css selectorlerini de kullanabileceğin oldukça başarılı bir kutuphanedir. https://github.com/code4craft/xsoup.

permanent link

cevaplandı: 11 Ağu '15, 02:28

kam's gravatar image

kam
1.3k82032
cevap kabul oranı: 16%

değiştirildi: 11 Ağu '15, 02:30

Web Crawler islemleri en basit ve hizli sekilde Python gibi script dillerinde yaparsiniz. Python icin hazir yazilmis Crawler ile verdiginiz linkleri analiz edebiliyorsunuz. Detayli incelerseniz yapmak istediklerinizden fazlasi oldugunu goreceksiniz!

Meet Scrapy - Build your own webcrawlers

permanent link

cevaplandı: 11 Ağu '15, 04:38

CemIkta's gravatar image

CemIkta ♦
19.9k29125190
cevap kabul oranı: 36%

Cevabınız
toggle preview

Bu soruyu takip et

E-Posta üzerinden:

Üyelik girişi yaptıktan sonra abonelik işlemlerini yapabilirsiniz

RSS üzerinden:

Cevaplar

Cevaplar ve Yorumlar

Yazı Formatlama

  • *italic* ya da _italic_
  • **bold** ya da __bold__
  • link:[text](http://url.com/ "başlık")
  • resim?![alt text](/path/img.jpg "başlık")
  • liste: 1. Foo 2. Bar
  • temel HTML etiketleri de kullanılabilir

Bu sorunun etiketleri:

×4

Soruldu: 10 Ağu '15, 06:56

Görüntüleme: 305 kez

Son güncelleme: 11 Ağu '15, 04:38

powered by BitNami OSQA