Articles liés à Cleaning Data for Effective Data Science: Doing the...

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools - Couverture souple

 
9781801071291: Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Synopsis

A comprehensive guide for data scientists to master effective data cleaning tools and techniques

Key Features

  • Think about your data intelligently and ask the right questions
  • Master data cleaning techniques using hands-on examples belonging to diverse domains
  • Work with detailed, commented, well-tested code samples in Python and R

Book Description

In data science, data analysis, or machine learning, most of the effort needed to achieve your actual purpose lies in cleaning your data. Using Python, R, and command-line tools, you will learn the essential cleaning steps performed in every production data science or data analysis pipeline. This book not only teaches you data preparation but also what questions you should ask of your data.

The book dives into the practical application of tools and techniques needed for data ingestion, anomaly detection, value imputation, and feature engineering. It also offers long-form exercises at the end of each chapter to practice the skills acquired.

You will begin by looking at data ingestion of a range of data formats. Moving on, you will impute missing values, detect unreliable data and statistical anomalies, and generate synthetic features that are necessary for successful data analysis and visualization goals.

By the end of this book, you will have acquired a firm understanding of the data cleaning process necessary to perform real-world data science and machine learning tasks.

What you will learn

  • Ingest and work with common tabular, hierarchical, and other data formats
  • Apply useful rules and heuristics for assessing data quality and detecting bias
  • Identify and handle unreliable data and outliers in their many forms
  • Impute sensible values into missing data and use sampling to fix imbalances
  • Generate synthetic features that help to draw out patterns in your data
  • Prepare data competently and correctly for analytic and machine learning tasks

Who this book is for

This book is designed to benefit software developers, data scientists, aspiring data scientists, and students who are interested in data analysis or scientific computing.

Basic familiarity with statistics, general concepts in machine learning, knowledge of a programming language (Python or R), and some exposure to data science are helpful.

The text will also be helpful to intermediate and advanced data scientists who want to improve their rigor in data hygiene and wish for a refresher on data preparation issues.

Table of Contents

  1. Data Ingestion – Tabular Formats
  2. Data Ingestion - Hierarchical Formats
  3. Data Ingestion - Repurposing Data Sources
  4. The Vicissitudes of Error - Anomaly Detection
  5. The Vicissitudes of Error - Data Quality
  6. Rectification and Creation - Value Imputation
  7. Rectification and Creation - Feature Engineering
  8. Ancillary Matters - Closure/Glossary

Les informations fournies dans la section « Synopsis » peuvent faire référence à une autre édition de ce titre.

À propos de l?auteur

David Mertz, Ph.D. is the founder of KDM Training, a partnership dedicated to educating developers and data scientists in machine learning and scientific computing. He created a data science training program for Anaconda Inc. and was a senior trainer for them. With the advent of deep neural networks, he has turned to training our robot overlords as well.

He previously worked for 8 years with D. E. Shaw Research and was also a Director of the Python Software Foundation for 6 years. David remains co-chair of its Trademarks Committee and Scientific Python Working Group. His columns, Charming Python and XML Matters, were once the most widely read articles in the Python world.

Les informations fournies dans la section « A propos du livre » peuvent faire référence à une autre édition de ce titre.

  • ÉditeurPackt Publishing
  • Date d'édition2021
  • ISBN 10 1801071292
  • ISBN 13 9781801071291
  • ReliureBroché
  • Langueanglais
  • Nombre de pages498
  • Coordonnées du fabricantnon disponible

Acheter D'occasion

état :  Assez bon
Ship within 24hrs. Satisfaction...
Afficher cet article
EUR 14,38

Autre devise

EUR 9,58 expédition depuis Etats-Unis vers France

Destinations, frais et délais

Acheter neuf

Afficher cet article
EUR 43,66

Autre devise

EUR 4,66 expédition depuis Royaume-Uni vers France

Destinations, frais et délais

Résultats de recherche pour Cleaning Data for Effective Data Science: Doing the...

Image d'archives

Mertz; David
Edité par Packt Publishing (edition ), 2021
ISBN 10 : 1801071292 ISBN 13 : 9781801071291
Ancien ou d'occasion Paperback

Vendeur : BooksRun, Philadelphia, PA, Etats-Unis

Évaluation du vendeur 5 sur 5 étoiles Evaluation 5 étoiles, En savoir plus sur les évaluations des vendeurs

Paperback. Etat : Very Good. Ship within 24hrs. Satisfaction 100% guaranteed. APO/FPO addresses supported. N° de réf. du vendeur 1801071292-8-1

Contacter le vendeur

Acheter D'occasion

EUR 14,38
Autre devise
Frais de port : EUR 9,58
De Etats-Unis vers France
Destinations, frais et délais

Quantité disponible : 1 disponible(s)

Ajouter au panier

Image d'archives

Mertz; David
Edité par Packt Publishing, 2021
ISBN 10 : 1801071292 ISBN 13 : 9781801071291
Neuf Couverture souple

Vendeur : Ria Christie Collections, Uxbridge, Royaume-Uni

Évaluation du vendeur 5 sur 5 étoiles Evaluation 5 étoiles, En savoir plus sur les évaluations des vendeurs

Etat : New. In. N° de réf. du vendeur ria9781801071291_new

Contacter le vendeur

Acheter neuf

EUR 43,66
Autre devise
Frais de port : EUR 4,66
De Royaume-Uni vers France
Destinations, frais et délais

Quantité disponible : Plus de 20 disponibles

Ajouter au panier

Image d'archives

David Mertz
Edité par Packt Publishing Limited, 2021
ISBN 10 : 1801071292 ISBN 13 : 9781801071291
Neuf PAP
impression à la demande

Vendeur : PBShop.store UK, Fairford, GLOS, Royaume-Uni

Évaluation du vendeur 4 sur 5 étoiles Evaluation 4 étoiles, En savoir plus sur les évaluations des vendeurs

PAP. Etat : New. New Book. Delivered from our UK warehouse in 4 to 14 business days. THIS BOOK IS PRINTED ON DEMAND. Established seller since 2000. N° de réf. du vendeur L0-9781801071291

Contacter le vendeur

Acheter neuf

EUR 44,34
Autre devise
Frais de port : EUR 4,98
De Royaume-Uni vers France
Destinations, frais et délais

Quantité disponible : Plus de 20 disponibles

Ajouter au panier

Image d'archives

Mertz, David
Edité par Packt Publishing 2021-03, 2021
ISBN 10 : 1801071292 ISBN 13 : 9781801071291
Neuf PF

Vendeur : Chiron Media, Wallingford, Royaume-Uni

Évaluation du vendeur 5 sur 5 étoiles Evaluation 5 étoiles, En savoir plus sur les évaluations des vendeurs

PF. Etat : New. N° de réf. du vendeur 6666-IUK-9781801071291

Contacter le vendeur

Acheter neuf

EUR 38,56
Autre devise
Frais de port : EUR 11,09
De Royaume-Uni vers France
Destinations, frais et délais

Quantité disponible : 10 disponible(s)

Ajouter au panier

Image d'archives

Mertz; David
Edité par Packt Publishing, 2021
ISBN 10 : 1801071292 ISBN 13 : 9781801071291
Neuf Couverture souple

Vendeur : California Books, Miami, FL, Etats-Unis

Évaluation du vendeur 5 sur 5 étoiles Evaluation 5 étoiles, En savoir plus sur les évaluations des vendeurs

Etat : New. N° de réf. du vendeur I-9781801071291

Contacter le vendeur

Acheter neuf

EUR 43,97
Autre devise
Frais de port : EUR 6,97
De Etats-Unis vers France
Destinations, frais et délais

Quantité disponible : Plus de 20 disponibles

Ajouter au panier

Image d'archives

David Mertz
Edité par Packt Publishing Limited, 2021
ISBN 10 : 1801071292 ISBN 13 : 9781801071291
Neuf PAP
impression à la demande

Vendeur : PBShop.store US, Wood Dale, IL, Etats-Unis

Évaluation du vendeur 5 sur 5 étoiles Evaluation 5 étoiles, En savoir plus sur les évaluations des vendeurs

PAP. Etat : New. New Book. Shipped from UK. THIS BOOK IS PRINTED ON DEMAND. Established seller since 2000. N° de réf. du vendeur L0-9781801071291

Contacter le vendeur

Acheter neuf

EUR 50,90
Autre devise
Frais de port : EUR 1,08
De Etats-Unis vers France
Destinations, frais et délais

Quantité disponible : Plus de 20 disponibles

Ajouter au panier

Image d'archives

David Mertz
Edité par Packt Publishing Limited, 2021
ISBN 10 : 1801071292 ISBN 13 : 9781801071291
Neuf Paperback / softback
impression à la demande

Vendeur : THE SAINT BOOKSTORE, Southport, Royaume-Uni

Évaluation du vendeur 5 sur 5 étoiles Evaluation 5 étoiles, En savoir plus sur les évaluations des vendeurs

Paperback / softback. Etat : New. This item is printed on demand. New copy - Usually dispatched within 5-9 working days 100. N° de réf. du vendeur C9781801071291

Contacter le vendeur

Acheter neuf

EUR 48,17
Autre devise
Frais de port : EUR 4,21
De Royaume-Uni vers France
Destinations, frais et délais

Quantité disponible : Plus de 20 disponibles

Ajouter au panier

Image fournie par le vendeur

Mertz, David
Edité par Packt Publishing 3/31/2021, 2021
ISBN 10 : 1801071292 ISBN 13 : 9781801071291
Neuf Paperback or Softback

Vendeur : BargainBookStores, Grand Rapids, MI, Etats-Unis

Évaluation du vendeur 5 sur 5 étoiles Evaluation 5 étoiles, En savoir plus sur les évaluations des vendeurs

Paperback or Softback. Etat : New. Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools 1.87. Book. N° de réf. du vendeur BBS-9781801071291

Contacter le vendeur

Acheter neuf

EUR 43,33
Autre devise
Frais de port : EUR 10,89
De Etats-Unis vers France
Destinations, frais et délais

Quantité disponible : 5 disponible(s)

Ajouter au panier

Image d'archives

Mertz; David
Edité par Packt Publishing, 2021
ISBN 10 : 1801071292 ISBN 13 : 9781801071291
Neuf Couverture souple

Vendeur : GreatBookPrices, Columbia, MD, Etats-Unis

Évaluation du vendeur 5 sur 5 étoiles Evaluation 5 étoiles, En savoir plus sur les évaluations des vendeurs

Etat : New. N° de réf. du vendeur 42642714-n

Contacter le vendeur

Acheter neuf

EUR 39,12
Autre devise
Frais de port : EUR 17,42
De Etats-Unis vers France
Destinations, frais et délais

Quantité disponible : Plus de 20 disponibles

Ajouter au panier

Image d'archives

Mertz; David
Edité par Packt Publishing, 2021
ISBN 10 : 1801071292 ISBN 13 : 9781801071291
Ancien ou d'occasion Couverture souple

Vendeur : GreatBookPrices, Columbia, MD, Etats-Unis

Évaluation du vendeur 5 sur 5 étoiles Evaluation 5 étoiles, En savoir plus sur les évaluations des vendeurs

Etat : As New. Unread book in perfect condition. N° de réf. du vendeur 42642714

Contacter le vendeur

Acheter D'occasion

EUR 39,75
Autre devise
Frais de port : EUR 17,42
De Etats-Unis vers France
Destinations, frais et délais

Quantité disponible : Plus de 20 disponibles

Ajouter au panier

There are 9 autres exemplaires de ce livre sont disponibles

Afficher tous les résultats pour ce livre