Pred pár dňami sa dostali na verejnosť uniknuté hodnotiace faktory z Yandexu. Čo sa týka štruktúry vyhľadávača, ako funguje, čo je MatrixNet, apod., som najlepší článok videl od Michaela Kinga. Ja sa budem venovať len hodnotiacim faktorom.

Niekoľko dôležitých poznámok na začiatok:

  • Pri čítaní jednotlivých faktorov som si ich rovno klasifikoval, to sú tie červené stĺpce v Google sheets. Nie je to dokonalé, ale pomôže vám to prehľadávať to, čo vás zaujíma. Tie ich tagy a kategórie mi neprišli dostatočné. (Preklady som nerobil ja a neviem dohľadať, od koho som to zobral. :-/)
  • Uniknutých faktorov v súbore factors_gen.txt je vyše 1800, ale keď odfiltrujete tie, ktoré majú tagy TG_UNIMPLEMENTED, TG_DEPRECATED alebo TG_UNUSED, tak vám zostane niečo vyše 400. Iba tie som nižšie v tomto texte bral do úvahy.
  • Toto vraj nie je celkový zoznam hodnotiacich faktorov, vraj po iných súboroch sú tam ďalšie. Po prečítaní všetkých z tohto zoznamu mi ale príde, že to je zaujímavá vzorka.
  • Váhy, ktoré unikli, sa podľa Dušana Janovského (Seznam) z rozhovoru s Pavlom Ungrom, týkajú len navigačných výrazov. Sú tam len pre pár desiatok faktorov. Priemer tých váh je veľmi blízko nule, zaujímavé.
  • Je tam špeciálny stĺpec AntiSeoUpperBound, ktorý má za úlohu určiť výslednému hodnoteniu, že toto je faktor, kde si treba dať pozor na SEO. Má za úlohu určiť strop pre ten signál.
  • Len preto, že sa tam nejaká téma rieši vo veľa faktoroch (napr. presná zhoda hľadaných slov v texte), neznamená, že ten faktor je dôležitý.
  • Len preto, že nejaký faktor vyzerá primitívne (napr. že URL obsahuje otáznik „?“), neznamená, že hodnotenie samotné, je primitívne. Predstavte si to napr. ako jeden krok v rozhodovacom strome – z primitívnych pravidiel sa stanú zložité klasifikátory. Pri ML klasifikácii módnych textov jeden node pre určenie toho, či je text o športovom oblečení, bolo, či to má gombík. Znamená to, že športové oblečenie nemôže mať gombík? Nie, lebo strom bol zložitejší, než aby sa spoliehal len na toto. Trhať gombíky zo športového oblečenia nemusíte. 😉
  • Yandex nie je Google. Princípy budú podobné, ale na konkrétne faktory by som sa veľmi nespoliehal.
  • Niektorým veciam som nerozumel a ani ChatGPT mi neporadil – môže to byť zlým prekladom, alebo tým, že je to interný žargón Yandexu. V niektorých veciach nižšie sa môžem mýliť. Budem rád, ak ma nejakými postrehmi doplníte.
  • Mení toto SEO, ako ho robíme? Nie. Je to zaujímavé? Fuh, veľmi.

Poďme na to…

Všeobecne

Toto rozhodne nie je vyhľadávač na úrovni Centrumu spred 15 rokov. Používajú veľké jazykové modely (LLM – Large Language Model), konkrétne napr. aj BERT od Googlu, na predikovanie rôznych vecí – či je title a text na stránke relevantný ku hľadanému výrazu, či na to človek klikne, aký bude dwell time, apod.

Kombinujú pri tom rôzne dáta, z YaBar-u, čo je asi ich toolbar, cez vlastné výsledky vo vyhľadávaní, ale aj Google výsledky, návštevnosť, čas strávený na stránke a na webe a iné.

Zaujala ma kombinácia URL+Title. Je tam niekoľko algoritmov na rozoznávanie typu obsahu už z URL a title-u, napr. či stránka obsahuje 1 produkt (produktová), viacero produktov (kategórie a filtrovania) alebo žiaden (informačné?), alebo či je to medical obsah. Pravdepodobne je to pomerne rýchle, lacné a dostatočne spoľahlivé, nemusia riešiť celý obsah stránok.

CTR (mieru preklikov) tam priamo ako hodnotiaci faktor, myslím, nepoužívajú. Medzi stále aktívnymi faktormi je tam spomenutý len raz, pre učenie modelu DSSM (Deep Structured Semantic Model).

Ale napr. dwell time je tam priamo aj ako ranking faktor. Aj na úrovni stránky, aj na úrovni webu. Dwell time je čas, ktorý človek strávi na stránke po kliknutí z organických výsledkov, kým sa vráti späť do vyhľadávania. Teória za tým je, že ak sa človek za krátky čas vráti späť do vyhľadávania, tak na stránke nenašiel, čo hľadal.

To nudné a zrejmé je, že geografická blízkosť je silný ranking faktor a jazyková zhoda je asi skoro nutná.

Téma hľadaného výrazu a webu

Yandex klasifikuje hľadané výrazy a weby podľa toho, akej témy sa týkajú:

  • Komerčné stránky
    • Produkty
    • Kategórie a filtrovania
    • Zvyšok
  • Medical
  • Médiá – majú vlastné poradie kvality médií
  • SMS služba
  • Obchod (asi lokálny)
  • SaaS – softvérová služba
  • Wikipedia
  • Porno
  • Fórum
  • Video provider – Vzťah medzi počtom zobrazení videa a dĺžkou trvania (asi myslené, ako dlho pozerali používatelia tie videá).

Zariadenie, operačný systém, spôsob hľadania

Riešia, či hľadanie prišlo z mobilu, desktopu alebo tabletu. Ale aj konkrétnejšie, či:

  • Android
  • iOS
  • Windows
  • iné

Majú jeden špeciálny faktor, či bolo vyhľadávanie hlasové.

Doména, web a majiteľ

Vo viacerých faktoroch sa rieši, čo je majiteľ domény zač. Riešia sa napr. koncovky domén:

  • .com doména
  • .ru doména

U majiteľa sa rieši:

  • Aké má publikum z browser logov
  • Rôzne podiely návštevnosti, napr. mobilná ku desktopovej
  • Či má nasadené merania návštevnosti pomocou nástroja Metrika – ich alternatíva ku Google Analytics
  • Ako často pridáva majiteľ obsah
  • Či si udržiava „site details“ – myslia O nás, Kontakt, apod?
  • Priemerná pozícia na všetky jeho výrazy – veľmi zaujímavé.

Na úrovni celého webu sa riešia:

  • Pomer diakritiky ku všetkým oddeľovačom slov
  • Percento priamej návštevnosti + návštevnosti z vyhľadávačov
  • Doba strávená na celom webe, konkrétne aj percento hľadajúcich, ktorí strávia na webe viac ako 160 sekúnd
  • Percento hľadaní, kde dwell time je viac ako 90 sekúnd
  • Freshness – ako často pribúda obsah na webe
  • Vracajúci sa návštevníci – majú viaceré faktory k tomu
  • Či má nejaký javascriptový tracking, napr. od Facebooku
  • Navigability – či je navigácia na webe prístupná alebo či je dobre použiteľná?
  • Vlastné poradie pre kvalitu médií
  • Či je to na bloghostingu
  • Či je web na Shopify

Stránka a jej obsah

Na úrovni stránok a jeho textu vo vzťahu ku hľadanému výrazu sa riešia tieto:

  • Text relevance – relevantnosť textu ku hľadanému výrazu. Používajú pritom porovnanie celého textového obsahu s hľadaným výrazom, ale aj model na 20 slovných pasážach a aj menšie, napr. dvojslovné výrazy z hľadaného textu ku jednoslovným z textu dokumentu.
  • Pasáž textu, v ktorej je hľadaný výraz, vzdialenosť od začiatku. Ďalej od začiatku je horšie.
  • Výskyt lemma (základný tvar slova) hľadaného výrazu v texte
  • Minimum textu, kde sa nachádzajú všetky hľadané slová

Faktory, ktoré asi majú niečo napovedať o kvalite textu:

  • “Text quality. Calculated according to a rather complicated formula 😊”
  • Hovorené slová „speech“ v texte
  • Zvýraznené slová – <b>, apod.
  • Priemerná dĺžka slov
  • Pomer slovies v texte
  • Počet čiarok v texte
  • Použitie ona, on, to, tie, …
  • Pomer slov mimo tagov “(outside the <> brackets)” – neviem, čo to chce byť – HTML poznámky?
  • Najdlhší kus súvislého textu
  • Dlhý text bez odkazov
  • Počet slov
  • Počet viet
  • Dĺžka textu

Niečo na odhalenie blabla textov?

  • Neprirodzenosť textu – majú zoznam dvojíc slov, ktoré by sa nemali spolu vyskytovať v texte. Ak sa vyskytujú v texte, tak je to mínus.
  • Podiel 500 a 200 najpopulárnejších slov toho jazyka v texte – asi odhaľuje otrepané frázy, neodborný jazyk, apod.
  • Opakujúce sa trigramy (tri po sebe idúce písmená) a opakujúce sa slová
  • Triezvosť textu (“sobriety”) (?)

Ďalšie:

  • Priamy výskyt hľadaného výrazu v texte
  • Dvojice slov z hľadaného výrazu vo vete, ale aj skok o jedno slovo (hladane_slovo_1 nehladane hladane_slovo_2) a aj opačné poradie (hladane_slovo_2 hladane_slovo_1)

Iný obsah na stránke?

  • Či je tam niečo na stiahnutie – súbor alebo video
  • Či je tam mapa
  • Či je produkt available, asi v zmysle na sklade
  • Komentáre a hodnotenia na stránke?
  • Video na stránke?
  • Či je stránka Soft 404
  • Neviem, čo je Aux – resp. nedáva mi to zmysel v spojitosti so zvukom. Napr. „Number of letters in the Aux segment“

K dátumu uverejnenia:

  • Je dátum uverejnenia starší ako 2007? Asi veľmi zlé.
  • Je dátum uverejnený na stránke?
  • Ako starý ten článok/stránka je?

Odkazy na webe a na stránke:

Rýchlosť načítania

  • Či je to “Turbo page” – myslia AMP?

Rôzne metriky ohľadom toho, kto na tú stránku chodí:

  • Návštevnosť z YaBaru
  • Čas na stránke z YaBaru
  • Aktivita používateľa na stránke – či kliká na myši alebo ťuká na klávesnici

A aj to, či je dokument typu HTML.

URL

Tieto sú tam pre URL:

  • Zhodné trigramy s hľadaným výrazom
  • Dĺžka URL
  • Znaky mimo písmen
  • Otáznik „?“ v URL
  • Počet lomiek
  • HTTPS

Title

Pre title-y stránok:

  • Zhodné trigramy s hľadaným výrazom
  • Presná zhoda a synonymá s hľadaným výrazom
  • Snažia sa zistiť, či title súvisí s textom, ak som správne pochopil
  • Porovnáva sa title aj s vynechanými slovesami
  • Rieši sa aj množstvo veľkých písmen v title-y

Spätné odkazy

Odkazom sa priamo pomerne veľa venovali vo faktoroch, ktoré majú už teraz tagy ako DEPRECATED alebo UNUSED, čiže sú asi nepoužívané. Veľa tam je o link relevance, o odhaľovaní link rings (výmeny odkazov, ktoré sa uzavrú ako kruh – napr. výmena medzi dvomi webmi je kruh), je tam PageRank, apod.

Teraz sa tam už len odvolávajú na nejaký LinkAnn index = asi index odkazov a vyberám jedno z nich, aby ste mali predstavu: „Linguistic Boosting Factor. Type of extensions: Qfuf. Aggregation by all extensions. Highest factor value. By stream from LinkAnnIndicator link index. Algorithm AnnotationMaxValueWeighted – maximum weight (by MainWeights word weights) of annotation coverage, weighted by annotation weight“

Mimo toho sú pomenované v podstate len tieto odkazové faktory:

  • PageRank má priradený tag UNUSED, takže asi používaný nie je, ale zostal tam nejaký divný bonus FI_PAGE_RANK_BONUS, z ktorého by vyplývalo, že sa asi riešil PR len pre viacslovné výrazy: „Priority bonus, priority 7 – text priority. Factor is binary, has value 0 for all single word queries, and value 1 for almost all two or more word queries, except for a very small number of responses, for which there are no links that passed the quorum, and the text did not pass the quorum either.“
  • Anchor text sa spomína vo viacerých faktoroch

Pikoška na záver

Podiel návštev z vyhľadávačov ku všetkým návštevám je faktor, ktorý má priradený ticket: SEARCHSPAM-7857.

Komentáre

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *