přejít na obsah přejít na navigaci

Linux E X P R E S, RDC - kdopak tady lže?

Vera

RDC - kdopak tady lže?

Už dávno mě trápila otázka, jak moc jsou pravdivé informace, které o sobě někteří poskytovatelé českého webhostingu tvrdí. Zrovna včera jsem narazil na reklamu jedné nejmenované firmy, která o sobě prohlašuje, že na svých serverech se zachováním maximální kvality a minimální ceny naprosto bezproblémově provozuje několik tisíc domén. O této společnosti jsem nikdy dříve neslyšel a tak jsem začal bádat, zda-li je (ze strany zákazníka) vůbec možné tuto informaci ověřit.


reklama

Po několika minutách vyhledávání jsem došel k závěru, že žádná přímá cesta (rozumějme centrální databáze) neexistuje. Při googlování mě však napadla myšlenka "zneužít" k tomuto účelu některý z vyhledávačů. Pročetl jsem poměrně podrobně jejich „návody“ a začal tvořit kód. Základním prvkem se stal vyhledávač live.com, který umí prohledat svou databázi webových stránek podle jejich IP adresy. Z prohlížeče si to můžete vyzkoušet sami, pokud zadáte do adresní řádky řetězec

http://search.live.com/results.aspx?q=ip:

a za něj bez mezery IP adresu hledaného serveru. Výsledkem je seznam domén a odkazy na jejich nejnavštěvovanější stránky. Abychom však zjistili i veškeré subdomény k vyhledaným doménám podle IP adresy, je nutné, položit dalšímu vyhledávači ještě jeden dotaz. K tomuto účelu se mi více líbil google, který umí zobrazit veškeré stránky (a tím pádem i subdomény) v námi určené doméně. Opět si to můžeme ověřit v prohlížeči zadáním řetězce

http://www.google.cz/search?q=site:

za který doplníme název domény.

K programu jsem chtěl mít webový front-end a tak jsem ho celý vytvořil ve skriptovacím jazyku PHP. Nejdůležitější část programu tvoří funkce curl, která se dotazuje vyhledávačů na požadované domény (IP adresy). Dále jsem použil několik základních funkcí pro práci s řetězci (oříznutí textu, downcase písmen) a trojici regulárních výrazů pro úpravu odkazů. Výsledek si můžete prohlédnout na mých stránkách.

reverse_domain_check.png

Uvedená metodika vyhledávání sice není zcela stoprocentní . Ve výstupu nenaleznete domény, které jsou aktivní teprve chvíli (tj. nejsou ještě zindexované vyhledávačem). Poskytovatel také může mít více serverů s několika IP adresami (kvůli rozložení zátěže) - v tomto případě je nutné provést vyhledávání pro každou IP adresu zvlášť a výsledky nakonec sečíst. Pro naši představivost je však dané vyhledávání zcela dostačující. Tak schválně – který český poskytovatel má na jedné IP adrese nejvíce domén? Já například nalezl na IP adrese 87.236.199.95 více jak 450 domén.


Nahoru

(Jako ve škole)
 

Top články z OpenOffice.cz

Příspěvky

RDC - kdopak tady lže?
Joelp 26. 06. 2008, 10:14:31
Odpovědět  Odkaz 
Nefunguje to ani na některé staré stránky. Zkoušel jsem to na firemních, které jsou na serveru, kde subdomén moc není a nenašel ji.
Tak jsem se jal zkusit to na mém webu (joelp.wz.cz). Je na IP 195.122.194.232. Script nalezl 914 subdoméne, ale ta moje mezi nimi není.

live.com si toho asi moc neindexuje.
Milan Kozák RDC - kdopak tady lže?
Milan Kozák 26. 06. 2008, 10:44:34
Odpovědět  Odkaz 
Oba vyhledávače bohužel omezují výpis výsledků vyhledávání a tak se může stát, že se (sub)doména nezobrazí. To samé platí, má-li web malý PageRank. Jak jsem ale psal v závěru - pro test, zda-li běží na dané IP adrese desítky, stovky nebo tísíce webů je vyhledávání dostačující.
RDC - kdopak tady lže?
majkro 26. 06. 2008, 12:59:12
Odpovědět  Odkaz 
Co treba napsat neco poradneho co nepocita subdomeny. A taky nevim jak se timhle zpusobem da najit guglem nekolik tisic domen, kdyz gugl povoluje jen cca 1000 dotazu denne z jedne IP (asi to je omezene na IP).
Re:RDC - kdopak tady lže?
majkro 27. 06. 2008, 08:50:21
Odpovědět  Odkaz 
Hm tak zas clanek o nicem a ani reakce se nedockam.
RDC - kdopak tady lže?
mikro 28. 06. 2008, 10:00:39
Odpovědět  Odkaz 
Si myslite, ze vsichni kecnou na zadek, protoze jste mel prispevek? Co kdybyste misto haneni ciziho vytvoru vyplodil neco samostatne? Proc ze, kdyz kritizovat je tak jednoduche...
Re:RDC - kdopak tady lže?
majkro 28. 06. 2008, 11:16:49
Odpovědět  Odkaz 
On tady na to tema nediskutuje skoro nikdo nikdy. Vyplozeno uz mam, sice pro trosku jiny ucel,ale slo by to predelat. Jen toto uz je nekolikaty clanek, ktery nekdo napise aniz by si zjistil fakty. Napriklad detail s omezenim poctu dotazu do googlu za den je dulezitej.
Re:Re:RDC - kdopak tady lže?
Milan Kozák 28. 06. 2008, 19:01:59
Odpovědět  Odkaz 
IMHO by měl být dotaz pro google napsaný takovým způsobem, aby najednou "vyplivnul" maximum možných informací, které se pak dají jednoduše na straně serveru jednoduše zpracovat (například pomocí již zmíněných regexpů).

Trápí-li vás přesto omezení počtu dotazů, stačí curlem poslat jiného User Agenta.
Re:Re:Re:RDC - kdopak tady lže?
majkro 30. 06. 2008, 14:54:20
Odpovědět  Odkaz 
No proc by to nekdo psal kdyz na google developers na to uz je pripraveno hodne veci ;) Jen je umet pouzit.

Přidat názor

Nejsou podporovány žádné značky, komentáře jsou jen čistě textové. Více o diskuzích a pravidlech najdete v nápovědě.
Diskuzi můžete sledovat pomocí RSS kanálu rss