Hodnocení:
Aktuálně nejsou k dispozici žádné recenze čtenářů. Hodnocení je založeno na 3 hlasů.
Data Cleaning
Kvalita dat je jedním z nejdůležitějších problémů při správě dat, protože špinavá data často vedou k nepřesným výsledkům analýzy dat a nesprávným obchodním rozhodnutím.
Uvádí se, že nekvalitní data v podnicích a ve státní správě USA stojí ročně biliony dolarů. Z mnoha průzkumů vyplývá, že špinavá data jsou nejčastější překážkou, se kterou se datoví vědci potýkají. Není divu, že vývoj účinných a efektivních řešení pro čištění dat je náročný a je plný hlubokých teoretických a technických problémů.
Tato kniha se zabývá čištěním dat, což je označení pro všechny druhy úkolů a činností, jejichž cílem je odhalit a opravit chyby v datech. Spíše než na konkrétní úkol čištění dat se zaměřujeme na přehled komplexního procesu čištění dat, popisujeme různé metody detekce a opravy chyb a snažíme se tyto návrhy ukotvit pomocí několika taxonomií a pohledů. Konkrétně se zabýváme čtyřmi nejběžnějšími a nejdůležitějšími úlohami čištění dat, a to detekcí odlehlých hodnot, transformací dat, opravou chyb (včetně imputace chybějících hodnot) a deduplikací dat. Kromě toho vzhledem k rostoucí popularitě a použitelnosti technik strojového učení zařazujeme kapitolu, která konkrétně zkoumá, jak se techniky strojového učení používají pro čištění dat a jak se čištění dat používá ke zlepšení modelů strojového učení.
Tato kniha má sloužit jako užitečná příručka pro výzkumné pracovníky a odborníky z praxe, kteří se zajímají o oblast kvality dat a jejich čištění. Může být také použita jako učebnice pro postgraduální kurzy. Přestože se snažíme pokrýt nejmodernější algoritmy a techniky, uvědomujeme si, že čištění dat je stále aktivní oblastí výzkumu, a proto uvádíme budoucí směry výzkumu, kdykoli je to vhodné.
© Book1 Group - všechna práva vyhrazena.
Obsah těchto stránek nesmí být kopírován ani použit, a to ani částečně ani úplně, bez písemného svolení vlastníka.
Poslední úprava: 2024.11.08 20:25 (GMT)