Hodnocení:
Tato kniha slouží jako komplexní zdroj informací o Apache Spark a nabízí podrobné teoretické i praktické poznatky. Je přehledně uspořádaná, zaměřuje se na různé součásti Sparku a obsahuje užitečné vizualizace a ukázky kódu. Pro zkušené uživatele však může být příliš základní a vyžaduje určité předchozí znalosti programování.
Klady:⬤ Pokrývá teoretické i praktické aspekty Sparku do velké hloubky
⬤ dobře organizovaná a přehledná
⬤ poskytuje jasné pokyny, užitečné vizualizace a ukázky kódu
⬤ poskytuje dobrý úvod do Sparku
⬤ obsahuje kapitoly o Delta Lake a MLlib
⬤ vhodná jak pro začátečníky, tak pro zkušenější uživatele, kteří si chtějí osvěžit znalosti.
⬤ Některá témata mohou být pokryta příliš povrchně
⬤ vyžaduje základní až středně pokročilé znalosti programování a analýzy dat
⬤ není ideální pro uživatele s předchozími zkušenostmi se Sparkem
⬤ nastavení může být náročné, zejména pro uživatele Mac a Windows
⬤ nemusí být vhodné pro úplné technologické nováčky.
(na základě 33 hodnocení čtenářů)
Learning Spark: Lightning-Fast Data Analytics
Data jsou větší, přicházejí rychleji a v různých formátech - a všechna je třeba zpracovávat ve velkém měřítku pro účely analýzy nebo strojového učení. Jak ale takovou různorodou zátěž efektivně zpracovat? Přichází Apache Spark.
Aktualizováno o Spark 3. 0, toto druhé vydání ukazuje datovým inženýrům a datovým vědcům, proč je struktura a sjednocení ve Sparku důležité. Konkrétně tato kniha vysvětluje, jak provádět jednoduchou i složitou analýzu dat a používat algoritmy strojového učení. Prostřednictvím postupných kroků, ukázek kódu a sešitů budete schopni:
⬤ Užívat vysokoúrovňové strukturované rozhraní API v jazycích Python, SQL, Scala nebo Java.
⬤ Pochopit operace Sparku a SQL Engine.
⬤ Prohlížet, ladit a ladit operace Sparku pomocí konfigurací Sparku a uživatelského rozhraní Sparku.
⬤ Připojit se ke zdrojům dat: JSON, Parquet, CSV, Avro, ORC, Hive, S3 nebo Kafka.
⬤ Provádění analýz na dávkových a proudových datech pomocí Structured Streaming.
⬤ Vytvářejte spolehlivé datové pipelines pomocí open source Delta Lake a Spark.
⬤ Vyvíjet pipelines strojového učení pomocí MLlib a produkovat modely pomocí MLflow.
© Book1 Group - všechna práva vyhrazena.
Obsah těchto stránek nesmí být kopírován ani použit, a to ani částečně ani úplně, bez písemného svolení vlastníka.
Poslední úprava: 2024.11.08 20:25 (GMT)