Mash-up.cz

Celý název školení se jmenoval Základy OpenRefine pro markeťáky, což zní trochu jako „Zapneme si OpenRefine a budeme řešit ty největší trivky“. Po ohlasech absolventů předchozích termínů workshopu a s vědomím, že znalosti předává Filip, pro kterého může být trivka ledacos, ale návštěva hodně lákala. Zvlášť když jsem OpenRefine zatím používal v podstatě dost povrchně pouze ke clusterizaci Analýzy klíčových slov a scrapování webů. Někde v podvědomí jsem měl zasunutou informaci, že ten nástroj toho umí opravdu hodně a NĚKDY se s ním musím naučit pracovat.

Nebudu popisovat, jak školení probíhalo. Ve zkratce můžu říct že daleko předčilo má očekávání a ze dne na den mi zrychlilo některé rutinní práce, zejména na Analýze klíčových slov. Filip jako školitel vysvětluje i složitější věci jednoduše, pochopitelně a od základů, takže tempo zvládne opravdu každý.

A jaké věci, z těch, co jsem si vyzkušel na workshopu, mi pomáhají nejvíc?

1. Lepší používání facetů a filtrů

Facety jsem dříve využíval jen k již zmíněné clusterizaci a odstraňování duplicit, užitečný pro mě byl také Word facet. Více jsem ale facety ani filtry nepoužíval a ani mě nenapadlo je třeba kombinovat :).

Po školení se můj repertoár v tomto ohledu výrazně zlepšil. Nejradši mám:

Textová filtrace s regulárními výrazy

Operátory |, * , $ nebo ^ se prostě občas při textové filtraci hodí a v excelu mi toto chybí.

Inverzní textová Filtrace a inverzní facety

Když potřebuji vyřadit z výběru dat určité vzory je to neocenitelné.

Word facet

Při analýze klíčových slov je fajn se občas podívat, jaká slova se ve vyfiltrovaném výběru frází opakují nejčastěji.

Text length facet

Když chci z frází vyfiltrovat pouze longtaily, hodím si facet na délku textu. Na posuvníku si potom nastavím, od kolika znaků jsou pro mě fráze v daném datasetu longtail. Výhodou je, že přímo na posuvníku vidím, jaké je zastoupení frází na jednotlivých délkách řetězců.

Numeric facet

Chci-li například pouze fráze s hledaností nad 1000/měsíc nebo fráze, na které mám 20. a horší pozici na Google, použiji numeric facet.

Scatterplot facet

Pokud chci vyfiltrovat klíčová slova, které mají zároveň hledanost více jak 1000 a můj web na ně má pozici horší jak 10, můžu buď zkombinovat dva numerické facety nad těmito sloupci a nebo použiji Scatterplot facet a tuto oblast si jednoduše vyznačím v grafu Pozice vs Hledanost. Výhodou tohoto výběru je, že podle rozložení teček vidím zastoupení frází v určitých oblastech hodnot. Pro přehlednost je také možné si přepnout na logaritmické zobrazení nebo změnit velikost teček v grafu.

2. Apply to all identical cells

Užitečná funkce, která umožňuje nahradit všechny buňky se stejným obsahem v daném výběru jednou hodnotou.

3. Colapse all other columns

Při klíčovce často vznikají projekty, které mají mnoho sloupců a jsou nepřehledné. Tohle řeší funkce View-> Colapse all other columns. Tím všechny sloupce „zavřu“ a následně si rozkliknu pouze ty sloupce, které mě zajímají.

4. Nové možnosti práce v GRELu

Programovací jazyk GREL, který je v OpenRefine integrovaný jsem dosud používal pouze na parsování HTML.

Co nám Filip ukazoval v GRELu by si zasloužilo samostatný článek a určitě se k tomuto tématu později dostanu. Kromě textových a numerických funkcí pro práci s obsahem buněk mě nejvíc zaujalo získávání dat z Rest API prostřednictvím parsování JSONu.

5. Add column(s) from other projects

Projekt jde rozšířit o data z jiných projektů díky možnosti Edit column -> Add colums from other project(s). Je to naprosto boží funkcionalita, která umožňuje jednotlivé projekty spojovat podobně jako tabulky v SQL databázi přes LEFT JOIN.

V praxi to používám třeba k přiřazení klasifikací z české analýzy klíčových slov k odpovídajícím klíčovým slovům v analýze klíčových slov v jiném jazyce. Stačí mít projekt s překlady jednotlivých klíčových slov, podle kterého sloupce s klasifikacemi na cizojazyčné fráze s hledanostmi, pozicemi a dalšími údaji namapuji.

Dokážu si také představit, že si takovýmto způsobem na analýzu klíčových slov ke vstupním stránkám napáruji data ze Screaming Frog crawlu (např. titulky, nadpisy apod.)

6. Export

Exportuje se pouze vybraný výběr dat. Mně to usnadňuje práci hlavně s ohledem na přípravu podkladových dat pro Copywritery. Vyfiltruji si co potřebuji, pak už jenom export do XLSX a šup s tím do Freela přilepit to k příslušnému úkolu.

7. Stars & Flags

Vybírat data lze nejen facety a filtry, ale také hvězdičkováním a flagováním. Je možné to dělat ručně i dávkově. Následně lze vytvořit facet nad oběma možnostmi (All -> Facet -> Facet by Flag/Star). Já to mám třeba rozdělené tak, že hvězdičkované fráze jsou v klíčovce určené pro export (po exportu hvězdičky promažu) a flagované fráze ke smazání, které jednou za čas provedu.

Na školení toho zaznělo daleko více a ještě se tím zpětně probírám. Věřím, že další úroveň využití OpenRefine pro mě přijde, až si osvojím funkce v GRELu, reconciliation a další pokročilejší věci.

Shrnuto: Jestli to co nám Filip ukázal teď byly ty největší trivky, tak se moc těším na OpenRefine pro mírně pokročilé 🙂