Získávání strukturovaných dat z internetu: Provozování webových crawlerů/scraperů ve velkém měřítku pro produkci dat.

Hodnocení:   (3,8 z 5)

Získávání strukturovaných dat z internetu: Provozování webových crawlerů/scraperů ve velkém měřítku pro produkci dat. (M. Patel Jay)

Recenze čtenářů

Shrnutí:

Kniha je obecně dobře hodnocena jako zdroj informací o procházení webu a scrapování, zejména pro začátečníky. Někteří uživatelé však považují její praktickou použitelnost za omezenou kvůli jejímu zaměření na ukázkové weby bez důkladného návodu na ladění nebo řešení reálných problémů.

Klady:

Poskytuje skvělý zdroj informací pro pochopení webového crawlingu v měřítku, zejména s využitím AWS a běžných crawlovacích dat. Autor uvádí postupný návod s příklady vhodnými pro začátečníky. Mnozí uživatelé ji považují za vynikající zdroj informací pro škrábání webu.

Zápory:

Užitečnost informací je poněkud omezená, protože kód funguje především na ukázkových webech uvedených v knize. Je zde málo diskusí o ladění nebo aplikaci konceptů na reálné scénáře, což některé uživatele zklamalo.

(na základě 4 hodnocení čtenářů)

Původní název:

Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale

Obsah knihy:

Využijte škrábání webu v měřítku, abyste rychle získali neomezené množství volných dat dostupných na webu do strukturovaného formátu. Tato kniha vás naučí používat skripty Pythonu k procházení webových stránek ve velkém měřítku a vyškrabávání dat ze stránek HTML a stránek s podporou JavaScriptu a jejich převodu do strukturovaných datových formátů, jako je CSV, Excel, JSON, nebo jejich načtení do vámi zvolené databáze SQL.

Tato kniha překračuje základy scrapování webových stránek a věnuje se pokročilým tématům, jako je zpracování přirozeného jazyka (NLP) a textová analýza, které umožňují extrahovat jména osob, míst, e-mailové adresy, kontaktní údaje atd. ze stránek v produkčním měřítku pomocí distribuovaných technik zpracování velkých objemů dat v cloudové infrastruktuře založené na Amazon Web Services (AWS). Kniha se zabývá vývojem robustního potrubí pro zpracování a načítání dat v korpusu Common Crawl, který obsahuje petabajty veřejně dostupných dat a soubor dat z procházení webu dostupný v registru otevřených dat společnosti AWS.

Získávání strukturovaných dat z internetu obsahuje také návod krok za krokem, jak nasadit vlastní crawlery pomocí produkčního frameworku pro škrabání webu (například Scrapy) a jak se vypořádat s reálnými problémy (například prolomení Captcha, rotace IP adres proxy serveru a další). V knize je uveden kód použitý v knize, který vám pomůže pochopit koncepty v praxi a napsat si vlastní webový crawler, který bude sloužit k realizaci vašich obchodních nápadů.

Co se naučíte

⬤ Pochopit web scraping, jeho aplikace/využití a jak se vyhnout web scrapingu tím, že se dostanete k veřejně dostupným koncovým bodům API rest a získáte data přímo.

⬤ Vyvinout webový scraper a crawler od základu pomocí lxml a knihovny BeautifulSoup a naučit se scrapovat ze stránek s podporou JavaScriptu pomocí Selenia.

⬤ Využívat cloudové výpočty na bázi AWS s EC2, S3, Athena, SQS a SNS k analýze, získávání a ukládání užitečných informací z procházených stránek.

⬤ Využívejte jazyk SQL v databázích PostgreSQL běžících v relační databázové službě Amazon (RDS) a SQLite pomocí nástroje SQLalchemy.

⬤ Přehled sci-kit learn, Gensim a spaCy pro provádění úloh NLP na vyškrábaných webových stránkách, jako je rozpoznávání jmenných entit, shlukování témat (Kmeans, aglomerativní shlukování), modelování témat (LDA, NMF, LSI), klasifikace témat (naive Bayes, Gradient Boosting Classifier) a podobnost textu (nejbližší sousedé na základě kosinové vzdálenosti).

⬤ Správa formátů webových archivních souborů a zkoumání otevřených dat Common Crawl na AWS.

⬤ Ilustrujte praktické aplikace pro data web crawl vytvořením podobného nástroje pro webové stránky a technologického profileru podobného nástroji builtwith.com.

⬤ Napsat skripty pro vytvoření databáze zpětných odkazů v měřítku webu podobně jako Ahrefs.com, Moz.com, Majestic.com atd. pro optimalizaci pro vyhledávače (SEO), průzkum konkurence a určení autority a pořadí domény webu.

⬤ Použití dat z procházení webu k vytvoření systému analýzy nálad ve zpravodajství nebo alternativní finanční analýzy zahrnující signály pro obchodování na burze.

⬤ Napište crawler připravený k produkci v jazyce Python pomocí frameworku Scrapy a vypořádejte se s praktickými řešeními pro Captchas, rotaci IP adres a další.

Pro koho je tato kniha určena

Primární publikum: datoví analytici a vědci, kteří se jen málo setkávají s reálnými problémy zpracování dat, sekundární: zkušení vývojáři softwaru, kteří zpracovávají data na webu a potřebují základní informace, terciární: majitelé firem a zakladatelé startupů, kteří potřebují vědět více o implementaci, aby mohli lépe řídit svůj technický tým.

Další údaje o knize:

ISBN:9781484265758
Autor:
Vydavatel:
Vazba:Měkká vazba

Nákup:

Nyní dostupné, na skladě.

Další knihy od autora:

Získávání strukturovaných dat z internetu: Provozování webových crawlerů/scraperů ve velkém měřítku...
Využijte škrábání webu v měřítku, abyste rychle...
Získávání strukturovaných dat z internetu: Provozování webových crawlerů/scraperů ve velkém měřítku pro produkci dat. - Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale

Díla autora vydali tito vydavatelé:

© Book1 Group - všechna práva vyhrazena.
Obsah těchto stránek nesmí být kopírován ani použit, a to ani částečně ani úplně, bez písemného svolení vlastníka.
Poslední úprava: 2024.11.08 20:25 (GMT)