Hodnocení:
Kniha je zdrojem informací pro výuku Hadoopu a analýzy velkých dat se zaměřením na základní i pokročilá témata. Přestože poskytuje široký přehled o ekosystému Hadoop a obsahuje praktické příklady, má také značné problémy s přesností kódu a srozumitelností psaní.
Klady:⬤ Ucelený přehled Hadoopu a souvisejících technologií
⬤ přívětivý pro začátečníky i profesionály
⬤ příklady jsou užitečné pro praktické učení
⬤ aktuální pro staré i nové technologie, jako je MapReduce a Spark
⬤ poskytuje citace pro další čtení.
⬤ Ukázkový kód často neodpovídá popisu v knize
⬤ pokyny k instalaci mohou být matoucí
⬤ příklady mohou přinést nesprávné výsledky
⬤ styl psaní je kritizován jako nedostatečně kvalitní
⬤ některé informace jsou zavádějící nebo nesprávné.
(na základě 9 hodnocení čtenářů)
Data Analytics with Hadoop: An Introduction for Data Scientists
Jste připraveni používat statistické techniky a techniky strojového učení ve velkých souborech dat? Tento praktický průvodce vám ukáže, proč je ekosystém Hadoop pro tuto práci ideální. Namísto nasazení, provozu nebo vývoje softwaru, které jsou obvykle spojovány s distribuovanými výpočty, se zaměříte na konkrétní analýzy, které můžete vytvářet, na techniky datových skladů, které Hadoop poskytuje, a na pracovní postupy s daty vyššího řádu, které tento rámec může vytvářet.
Datoví vědci a analytici se naučí provádět širokou škálu technik, od psaní aplikací MapReduce a Spark pomocí jazyka Python až po používání pokročilého modelování a správy dat pomocí Spark MLlib, Hive a HBase. Seznámíte se také s analytickými procesy a datovými systémy, které jsou k dispozici pro vytváření a posilování datových produktů, které mohou zpracovávat - a vlastně i vyžadují - obrovské množství dat.
⬤ Poznáte základní koncepty Hadoopu a clusterových výpočtů.
⬤ Využívat návrhové vzory a paralelní analytické algoritmy k vytváření distribuovaných úloh pro analýzu dat.
⬤ Zjistěte, jak spravovat, vytěžovat a ukládat data v distribuovaném kontextu pomocí Apache Hive a HBase.
⬤ Používat Sqoop a Apache Flume k přijímání dat z relačních databází.
⬤ Programovat komplexní aplikace Hadoop a Spark pomocí Apache Pig a Spark DataFrames.
⬤ Provádět techniky strojového učení, jako je klasifikace, shlukování a kolaborativní filtrování, pomocí Spark MLlib.
© Book1 Group - všechna práva vyhrazena.
Obsah těchto stránek nesmí být kopírován ani použit, a to ani částečně ani úplně, bez písemného svolení vlastníka.
Poslední úprava: 2024.11.08 20:25 (GMT)