Petr Hejl: budu vo 10–20 % lepčí než Gůgláci (rozhovor)

Sdílet

 Autor: Redakce

Předem se omlouvám za horší čitelnost textu, ale odpovědi jsem nechal v původní podobě. Korekturou by se ztratilo to kouzlo a osobitost, s jakou Petr Hejl svůj projekt prezentuje.

Pane Hejle, mohl byste v několika větách popsat, co vás vedlo k vytvoření Nového hledače.

Nejdřív bych s dovolenim uved WWW adresu mýho projektu: http://www.milionovastranka.net.
Ty čtenářové, kerý si chtěj hned ze začátku něco užít, tak ať si přepnou na tudle stránku: http://www.milionovastranka.net/vtipy.htm.

Jinak, ta historie je to dost dlouhá a zajímavá story. Já sem se seznamy a hledači zabýval už cca v roce 1995. Ovšem tehdá sem (jako většina vývojářů) nesprávně usoudil, že primární sou seznamy (tedy katalogy linků s proklikáváním). Jediný Gůgláci vodhadli budoucnost správně: patří hledačum. Měl sem dokonce dvě patentový přihlášky v oblasti seznamů, které chtěl koupit Netscape, muj tehdejší kamarád a obchodní partner byl dokonce na jednání v headquarters of Nestcape. ale pak se Netscape odmítl prodat Microsoftu, Microsoft jej zničil a bylo po kšeftu.

Asi před 4.5 roku sem se vrátil po nepříliš úspěšný anabázy z Kanady a přemýšlel sem, co profesně dál. A jak sem tak seděl na lavičce v Lednici, napadlo mne, dělat turistiku na Internetu. Jak dolní Moravu, tak Internet sem docela slušně znal. Ale, dyš začínáte nějakej novej byznys, nejprve se zpravidla kouknete na potenciální zákazníky a konkurenci, uděláte si takovou preliminární lustračku. Tak sem v tomdle smyslu začal hlodat (Lednice, turistika, cestování…) a najednou mne praštilo do nosu, jak špatnou kvalitu dosud stávající hledače poskytují (já trouba považoval dříf hledání za vyřešený Gůglem, naštěstí sem se mejlil).

Nerelevantní linky nahoře, relevantní linky dole, když hledáte něco konkrétního, najdete to na třetí či páté stránce nebo je to vůbec nedohádatelné. Tak sem si udělal soukromou statističku či vodhad a zjistil sem, že cca 30 procent nalezenejch linků je v samotnym Gůglo špatně umístěno. Tento vodhad potvrdila pozdějc studie City Group (snad víte, co je City Group), vodkaz je níš. No a vod teho byl uš jen krůček k nápadu to „hledání“ vylepčit.

Petr Hejl

Petr HejlVystudoval ČVUT Praha, obor počítače. Má titul CSc za práci o strukturovaném programování a zhruba 15 let se živil jako programátor. Seznamy a hledači se zabývá 10 let (6 let teoreticky, 4 roky prakticky).

Svůj revoluční nápad ve vyhledávání by nejraději prodal Microsoftu.

Co ty dnešní vyhledávače dělají špatně a jak (o kolik) je váš projekt teoreticky lepší?

Muj Novej hlodač je (teoreticky) lepší než stávající hledače v pořadí nalezených linků (WWW stránek). V případě Gůglo je to podle mého kvalifikovaného odhadu vo 10 procent. Ofšem rozdíl kvality v procentech způsobuje rozdíl v násobcích návštěvnosti hledače. Například kvalitativní rozdíl mezi Gůglo a Bingem je 20 procent (dle studie City Group: http://searchengineland.com/citigroup-study-says-google-more-relevant-than-bing-22102)

Tento rozdíl v kvalitě primárně způsobuje propastný rozdíl (nebo spíše podíl) v návštěvnosti Gůglo a Bing. Ve světě je to cca 30:1 (viz Statcounter: http://gs.statcounter.com/#search_engine-ww-monthly-200905-201101), v USA je to cca 10:1 (viz Statcounter: http://gs.statcounter.com/#search_engine-US-monthly-200905-201101); přitom tento rozdíl (či podíl) zůstává již rok a půl stabilní, přes miliardy dolarů, které Microsoft do Binga doslova cpe horem dolem.

Když to tak schrnu, Gůglo je voptimální ze 70 procent, to jest nevoptimální ze 30 procent. Já budu pravděpodobně o 10, možná o 20 procent, lepčí něžli Gůglo. Ale i mně bude do voptimality nejméně 10 procent chybět, to vim uš předem.

A ještě todle: Gůglo je v současný době bez diskuze nejlepčí světovej hlodač. Ale, jak uvádim výše, to vůbec nejni ekvivalentní s tím, že by byl voptymální. 

Jak dlouho už na projektu pracujete a co všechno jste za tu dobu stihl udělat?

4.5 roku

3 roky sem vymejšlel muj princip hlodání, tedy základní myšlenku, podle které se mají nalezené linky řadit. Půl roku sem vymejšlel algoritmus hlodání (teda jednotlivá kriteria a aplikaci mýho principu hlodání pro tato jednotlivá kriteria), algoritmus prototypu (minihledače) a metodu porovnání výsledků hlodání dvou různejch hlodačů, dělal sem dokumentaci projektu (business plán, rozpočet…) a WWW stránky projektu, rok jsem „sháněl“ investory.

Petr Hejl a Den DPetr Hejl a jeho vstoupení v pořadu Den D

Proč jste zvolil název zrovna “Nový hledač” místo vyhledávače? V češtině v tom přece není rozdíl.

Tohle je jeden ze základních vomylů takzvaných šťouralů, jak je já nazývám. Správnej termýn je „hledač“. Odůvodnění:
- kdysi, asi před 15 lety, se jednoznačně používal termín „seznamy a hledače“
- „vyhledávač“ není žádný tradyční český či moravský či slezský apod. slovo i v jinejch souvyslostech se tradyčně používá „hledač“; přestavte si třeba spojení „vyhledávač pokladů“, ha, ha, dyk to by musel Mužík chodi kanáama, dyby mu takdle nadávali
- překlad z angliny je jasnej, vyz třeba on-line slovník Seznamu: search = hledat, seek out = vyhledat.
„Vyhledávač“? Pche. Tagže by mne docela zajímalo, kerej linkvista-amatér na ten přiblblej termín „vyhledávač“ přišel.

Loni jste neuspěl v televizní soutěži Den D, kde vám investoři nevěřili. Když se na to podíváte zpětně, vzal jste si nějakou zkušenost, kterou jste později uplatnil v byznysu?

Tam to bylo Waterloo na druhou. Dybych to byl věděl, tak sem tam nechodil, i dyš… Přiznávám, že já sem tehdá ještě neuměl muj princip hlodání ani celej projekt dost dobře objasnit. Na druhou stranu sem nebyl připravenej na hloupost a aroganci (podle mého mínění) tý squardy azury tych ynvestorů. Místo, aby se mne ptali na hlodání, tak se mne ptali na alkohol (Je-Bude Bartoš) a ženský (Double Name Rostock). Nepadla tam ani jedna votáska na mou technologyji a jen jedna trapná votáska na byznys (Tomyjo). Snad vrcholem byla jedna s tych ženskejch, kerá vodsoudila mou myšlenku, aniš by se na ni předem voptala (sic). Klidně si to pusťte znova

Vzal sem si z teho dvě ponaučení: líp muj princip hlodání a celej projekt vysvětlovat; být ready na hloupost a aroganci někerejch investorů. A z Bartošem sem si to pak trochu vyřídil v diskuzi k jeho článku na Lupě, kde sem mu vokázal, že tak docela dycky nepíše pravdu, teda todle fšecko podle mýho soukromýho názoru.

Myslíte, že je na trhu ještě místo pro nový vyhledávací engine? Nesměřuje už vývoj na specializované služby (realtime prohledávání sociálních sítí, hledání objektů na fotografiích, videu), případně k chytrým vyhledávačům jako je WolframAlpha, který se nejvíce přibližuje onomu sémantickému webu (odpovědi místo odkazů)?

Prostor pro nový světový hledač podle mne není, vyžadovalo by to extrémní náklady s nejasným výsledkem (vis třeba pokus Cuil).

Já se primárně nesnažim vo vytvoření reálnýho novýho hlodača. Já chcu ověřyt kvalitu mýho hlodání na prototypu a následně prodat moj algorytmus hlodání, nejlíp Microsoftu pro Bing, nebo jinýmu vhodnýmu zájemcovy.

Teprve sekundárně, pokud by se toto nepovedlo, bych realizoval a provozoval reálný Nový český hledač. Na českém trhu je pro další hledač prostor, zejména skrze vá mizernou kvalitu hledání na Seznamu posledních asi 1.5 roku.

WolframAlfa je blbost, zkuste si tam třeba hledat „Morava“.
Sémantice patří (nejen) v hledání budoucnost, ale asi až za 20 let, až někdo naučí počítače myslet. I dyš, nedávno sem čet vo jednom pokusu, kdy super počítač soutěžil s lidma, a tam uš to bylo nadějný: http://www.novinky.cz/internet-a-pc/225534-lide-prohrali-vedomostni-souboj-se-superpocitacem.html.

Teď tvrdíte, že výsledky budou lepší a na první pozice se nebudou dostávat reklamní a jiné weby konstruované pouze proto, aby se umístily nahoře (MFA – Made For AdSense). Časem ale naleznou SEO kouzelníci triky i pro váš engine, nebo ne?

SEO spammeři dlouho nebudou vědít, co sou ty moje množiny, teda nebudou vědít, na co voptymalizovat. Aš to vitušeji, bude pro ně daleko složitější a finančně náročnější voptymalizovat na množiny, neš na jednotlivý WWW stránky. Takže na Black SEO Spamming se může zapomenout, s mym hlodánim to bude out.

Jak velké šance na úspěch Novému hledači dáváte? Pokud byste si byl 100% jist, neuvažoval jste místo hledání investora o bankovní úvěr?

95 procent:
- 70 procent – prodej mýho algoritmu Bingu
- 20 procent – úspěšnej provoz Novýho českýho hlodača
- 5 procent: další vývoj a návrat do prvního či druhého bodu
- 5 procent: kompletní ztráta
Üvěr sem si nemoch vzít, protože sem neměl čím ručit.

Váš HejlRank se oproti PageRanku liší v tom, že nestanovujete hodnotu jednotlivým stránkám, ale množinám jako dokumenty, video apod. Stránka jde jednoduše indexovat, ale jakým způsobem analyzujete třeba video? Jak váš engine pozná, že jednotlivé komponenty na stránkách jsou opravdu relevantní vůči zbytku obsahu webu. Příklad: Na firemním webu prodejce plastových oken bude odkaz nebo vložené (embedded) video z YouTube, které ale s okny nemá nic společného. To samé třeba obrázky. Zkrátka si nedovedu představit, jak bude takový obsah hodnocen HejlRankem.

Vtip nejni v analíze jednotlivejch komponent, ale v tom, jak stránky a tydle komponenty dávám dohromady, teda jaký z nich dělám množiny, kde uvažuju o převládajících stránkách komponentách. A tohle umim. V jedný nebo několika stránkách či kompontách se samozřejmě spletu, ale nikoli v celý množině, kerá se sestává z hafa stránek a komponent. I kdyš, jak píšu výše, i teoreticky bude můj postup z 10ti procent neoptimální.

Nový hledač

Google minulý týden ohlásil velké změny v hodnocení PageRanku, které mají ovlivnit až desetinu zadaných dotazů. Než stačíte uvést Nový hledač, nebude už Google a další konkurence zase o kus dál než vy?

Gůglo asi pře půl rokem zaved kafemlejnek, čimž fantasticky zlepšil rychlost zařazování novejch stránek (aktualizaci). Tušim, jak to dělá, ale je to záležitost realizace, nikoli vlastního pořadí linků.
Před týdnem byla správa, že Gůglo dokáže líp vodhalovat duplycyty na různejch místech Netu. To přispěje k jejich Anti Black SEO.

S těma změnama of Gůglo ste taky moch mít na mysli další personalizaci.
Tý ale já moc nevěřim, Tady je důkaz:
Volá blondýnka kamarádce:
"Představ si, poslala sem muže pro brambody a přejelo mi ho auto".
"A co budeš dělat?"
"Asi rejži."

Co by v takovym falu poradilo personalizovaný hledání tej blondýnce?
Natuty brambory, protože by z minulejch dotazů vědělo, že je má v oblibě.
A byla by v pytli, protože brambory neměla, tak by byla vo hladu...
Moj množinovej princip Gůglo natuty do dneška nepoužívá (denně to kontroluju) a nemám povědomí, že by něco takového vyvíjelo.

Předpokládám, že váš algoritmus bude kvůli tomu časově (tedy i hardwarově) náročnější. Máte nějaký hrubý odhad, jak se liší oproti Googlu?

Můj algoritmus je časově asi 2x složitější než má Gůglo, tytéž kriteria se nejprve vyhodnocují ponejprf pro WWW stránky, pak pro množiny. Ovšem při nynějšim zrychlování procesorů, počítačů a apod. tohle nejni problém. A víte, kolik serverů by si moch Microsoft koupit a rok provozovat za roční ztrátu Binga? 150000. Slovy sto padesát tisíc. A pokud koupěj muj kvalitní algorytmus, tak zakrátko srovnaj s Gůglo stran náfštěvnosti krok, tudíš zvedej příjem z inzerce, ergo kladífko jim tato stráta komplet vodpadne.

Na svých stránkách píšete, že byste nejraději váš engine prodal Microsoftu. Předpokládám že kvůli tápání Bingu ve srovnání s Googlem. Oslovil jste přímo Steva Ballmera, ale proč ne Erica Schmidta? Váš nápad by možná ocenili i v Googlu, který s kupováním nápadů a akvizicemi startupů nemá problém. A co český Seznam nebo Centrum? Pokud je váš algoritmus natolik revoluční, proč o něj ještě neměli zájem? Vždyť milionová investice by pro takové firmy nic neznamenala.

Oslovil sem pana Steve Ballmera, ta story je tady:
http://www.milionovastranka.net/moje_korespondence_s_microsoftem.htm
Odpověděl mi nepřímo pan Ballmer, že myšlenky nekupují, abych přišel, aš budu mít „traction or tradic“, teda pohyb nebo náfštěvnost. O to se teďky snažim, na prototypu vo tu „traction“, případně na Novym českym hlodačovi vo tu „tradic“. Nechcu je teďky znova votravovat, dokavad mi nebude ten prototyp běhat, abych jim moch ukázat ten pohyb.

Proč by to Gůglo kupovalo, dyš vede nad konkurencí v poměru 30:1?

Seznam je příliš namyšlenej a zahleděnej do sebe.

Centrum s vlastnim hlodánim skončilo asi před 2 roky, teď používaj Gůglo. Atlas asi teďky používá Jyxo. Hledání Centrumu bylo eště horší, než je dnešní hledání na Seznamu, a to je dost co říct, byla to úrovní tak asi hodně špatně napsaná diplomka. Mailoval sem jim asi před 4ma rokama, že pokavad nezlepčej kvalytu, tak s hlodánim skončej, a taky skončily.

Nedávno jste dostal poslední část milionové investice. Co se od té doby změnilo, jak se posunul vývoj hledače?

1.2.2011 sem začal pracovat na prototypu (minihledačovi). Mám postavenou slušnou hardwarovou konfiguraci. Asi 14 dní sem rozhodoval softwarový prostředí, bude to takhle: C++, Linux-Ubuntu, Apache, databáze Hadoop. Dělám si prostředí v Ubuntu. Pravděpodobně to budu programovat sám.

Bude zmíněný milion opravdu stačit na pokrytí veškerých nákladů? Budete celý rok platit tým čtyř pěti lidí. Nebo už máte časový plán, od kdy do kdy budou jednotlivé etapy probíhat? Co licence na použitý software (db Oraclu apod.), konektivita pro stažení celého českého webu...

Bude stačit, to mám spočítaný. Hardware řešim formou barteru za procenta z projektu. Místo Oracle to bude opensource Hadoop. Mám pro sebe linku 1Gbps, mělo by to být staženo asi za měsíc.

Jaká jsou hodnoticí kritéria úspěch/neúspěch? Jestliže algoritmus opravdu dokončíte, indexace proběhne v pořádku, tak jak poznáte lepší výsledky oproti konkurenci?

Mám metodu porovnání výsledků dvou hledačů, kde vycházim z pravděpodobnosti a statistiky. Microsoft má vlastní metodu. Tagže jim výsledky prototypu zpřístupnim pro jejich zhodnocení.

Minulý týden jste uskutečnil soutěž pro jednoho dalšího investora (s nejpřesnějším odhadem prodeje/pronájmu Hledače). V diskuzích na Lupě, ale i jinde se na vás opět hází špína, že to nemůžete myslet vážně. Co si od soutěže slibujete?

Myslím to vážně, i když to může vypadat humorně.
Popis soutěže je tady: http://www.milionovastranka.net/soutez. Můžete se i s čtenáři zúčastnit, ak výhra by byla slibná.
Účely soutěže jsou 3:
- PR moje i projektu
- příjem projektu
- umožnit neuspokojenejm investorum a dalším lidem mít nějakej „podíl“ na projektu

Nekolika investorum sem musel jejich investici nakonec vodříct, antoš sem na tu uš neměl procentovej prostor. Prostě nejdřív tři čtvrti roku nic a nakonec sem měl převis nabídek investic nad mou poptávkou.
Na trapný šťouraly v diskuzích su uš zvyklej. Ale uš sem se vodlmčel, makám na minohlodačovi a nemám čas na kecání.

Odhadujete, že váš nápad má hodnotu dvě miliardy dolarů. Když toto číslo srovnám s loňskými největšími akvizicemi v IT, nachází se někde v úrovni, kdy Attachmate koupil Novell (2,2 mld.) atd. Zkrátka zavedené firmy s mnohamilionovými obraty. Trefnější možná bude nákup YouTube Googlem za 1,6 mld., přitom se jednalo o rok starou firmu (což by mohl být i váš Hledač). Ale v případě vyhledávačů nebývají hodnoty obchodů tak vysoké (max. v řádech stamilionů). Na jakém základě ty dvě miliardy stavíte?

Tendle muj vodhad je docela přesnej, a to na základě cizejch vzorů:
- Gůgláci chtěli jejich algorytmus na začátku prodat za 1.6 giga USD, k temu sem připočet inflaci
- když chtěl MS koupit Yahoo, bylo rozdělení ceny 40 giga USD asi toto: značka 10 giga, portál 10 giga, hardware a síť 5 giga, software 5 giga, algoritmus 5 giga; ale to byl samozřejmě funkční algoritmus, tak sem tudle částku pro muj odhad dělil víc neš dvouma.

Co říkáte na kritiku vašich stránek? Neodpovídají dnešním trendům, ale spíš připomínají exportované HTML z Wordu. Tvorbu enginu (algoritmu) přece nemusí ovlivnit estetické cítění autora, o výslednou vizuální podobu se bude, předpokládám, starat jiný člověk.

Moje turistický stránky http://www.jiznimorava.org/servery nemaj uš s projektem co do činění (mám tych serverů 21). WWW stránky projektu http://www.milionovastranka.net sem dělal ve Wordu, aby mi to rychle vodsypalo. Ani Gůgláků se nigdo neptal, esli sou dobrý grafici? A kde je grafika of Gůglo? A vůbec…

Nelze si nevšimnout vašeho specifického psaného projevu v diskuzích. Osobně si myslím, že je to součást plánu, jak se zviditelnit. Stejně jako archaická podoba vašich stránek. Mám pravdu?

Yes.

bitcoin_skoleni

Děkuji za rozhovor a přeji hodně úspěchů jak v životě, tak i s Novým hledačem.

Díky za zveřejnění:
Petr Hejl

Zdroj fotografií: Česká televize, Petr Hejl