La Scuola dei Dati: il programma del modulo Python

Nicola Iantomasi - La Scuola dei Dati

anno scorso

In questo video vi presento il programma del modulo di Python, Pandas e Machine Learning della Scuola dei Dati. Ecco i capitoli principali:
- Installazione Python, Jupyter e le principali librerie
- Import dei dati da file con Python e Pandas
- Fondamenti di Python: tipi di dati, funzioni e controllo del flusso
- Analisi dei dati con Pandas
- Esercitazione sul Pre-processing
- Python, Database e API
- Machine Learning e programmazione a oggetti
- Seaborn e Scikit-learn per il Machine Learning
- Approfondimenti sul Machine Learning
- Football Analysis
- Project Work

Scopri tutte le informazioni sulla Scuola dei Dati, il corso completo per Data Analyst, a questo link https://www.lascuoladeidati.it/corso-data-analyst/

Categoria

📚

Apprendimento

Trascrizione

Visualizza la trascrizione dell'intero video

00:00Andiamo ad analizzare il programma di questo videocorso di Python che si focalizza sul suo

00:05utilizzo per Data Analyst e Data Scientist. Ecco l'indice completo del corso. Andiamo a

00:11vedere capitolo per capitolo gli argomenti principali. Partiremo installando Python,

00:16Jupyter e le principali librerie. Il tutto spiegato da zero passo per passo e ponendo

00:22anche molta attenzione sull'importanza di installare le librerie su ambienti dedicati.

00:27Vedremo questa cosa che molto spesso nei corsi è tralasciata ma che è di fondamentale importanza

00:31per approcciarsi in modo professionale all'utilizzo di Python. Poi entriamo subito nel vivo imparando

00:38come utilizzare la libreria pandas per importare dati da svariate tipologie di file. Partiremo da

00:44semplici file csv per analizzare invece csv più complessi con più particolarità, file excel e file

00:50in formato json fino ad arrivare a file di testo che hanno una struttura da comprendere, da studiare

00:56e da utilizzare per far acquisire i dati all'interno di Python e organizzarli all'interno

01:01dei cosiddetti data frame. Studieremo bene che cos'è un data frame di pandas, questa importantissima

01:07struttura tabellare all'interno dei quali i dati sono organizzati in pandas, inizieremo a vedere

01:12anche delle prime analisi preliminari su di essi. A questo punto faremo un passo indietro e

01:17ripercorreremo i fondamenti di Python. Vi voglio parlare un attimino di questa scelta didattica di

01:23mettere prima il capitolo sull'import dei dati e poi quello sui fondamenti. In questo modo potremo

01:28parlare della parte un po' più teorica di Python, non su una base astratta come spesso succede in

01:33molti corsi, ma su una base concreta sui problemi relativi all'analisi dei dati e ai dati che

01:38abbiamo imparato ad acquisire nel capitolo precedente. Ed è così che impareremo bene

01:43con gli esempi pratici come utilizzare le istruzioni if, while e for, i vari tipologie

01:47di dati dentro Python, liste, tuple, edizionare, insiemi. Vedete ad esempio nell'immagine vedremo

01:52edizionare come output dell'acquisizione di un file Excel con tanti fogli. Percorreremo così tutti

01:58gli aspetti fondamentali di Python, compreso l'utilizzo delle funzioni con input e output,

02:03gestione degli errori e molto altro. A questo punto potremo tornare su pandas con maggiore

02:09consapevolezza per imparare ad analizzare i dati, a fare tutte le principali operazioni

02:14dichiarative di analisi, che ad esempio facciamo anche con linguaggio SQL su database. Impareremo

02:20a filtrare i dati col metodo query, a raggrupparli col metodo groupby e agg, a combinarli tra loro,

02:26a fare qualcosa simile a leggere in SQL con il metodo merge. Questi sono probabilmente i tre

02:30metodi principali, query, groupby e merge, ma poi andremo a studiare davvero tanti altri.

02:35All'interno di questo punto, o altri metodi avanzati per analizzare i dati,

02:38c'è veramente tantissima roba, dagli operatori per ordinare i dati, per rimuovere i duplicati,

02:43per gestire le colonne multivalore, per effettuare pv e mpv dei dati, fino anche ad utilizzare pandas

02:49per creare veramente con pochissime righe di codice i nostri primi grafici con python. Sarà un

02:54antipasso della libreria Sivorn che vedremo nei capitoli successivi. A questo punto consolideremo,

03:00quando imparato sul pandas, con un'esecitazione su varie attività di analisi dei dati che riendano

03:07sotto l'ombrello del pre-processing al machine learning. Si tratta infatti tutta di una serie

03:12di attività che sono propedeutiche all'applicazione di algoritmi di machine learning. Nei capitoli

03:17seguenti vedremo anche come implementare queste attività con delle librerie specifiche come scikit

03:21learn, ma in questo capitolo vogliamo utilizzare questo importante insieme di operazioni per

03:26esercitarci sulla libreria pandas. Il tutto sarà fatto con delle lezioni estremamente dinamiche,

03:31dove andrò a risolvere live gli esercizi, in modo da aiutarvi a sviluppare il ragionamento,

03:35ampliare l'uso delle funzioni e metodi, e fare pratica diretta nella programmazione in python

03:41e con la libreria pandas. Prima di passare a machine learning, chiuderemo la parentesi

03:45sull'acquisizione dei dati, se nel secondo capitolo ci siamo concentrati principalmente

03:50sui dati provenienti dai file, qui andremo a vedere come connetterci a database relazionali

03:54come SQL Server e non relazionali come MongoDB. Per poi passare ad acquisire i dati tramite le

04:00application programming interface, prima tramite la libreria requests e poi vedremo anche un caso

04:05più particolare di una libreria apposita a biopython per acquisire dati nell'ambito della

04:09bioinformatica. Il capitolo seguente invece è dedicato al machine learning puro e alla

04:15programmazione oggetti. Vedremo come implementare da zero, dall'inizio, riga di codice per riga di

04:22codice, il perceptron, quello che è riconosciuto come il primo algoritmo ideato di machine learning

04:27e che è tutt'oggi alla base delle attuali reti neurali ed algoritmi più complessi. Noi impareremo

04:33a implementarlo da zero. Non vi preoccupate, c'è anche qualche piccolo aspetto matematico

04:37dietro questo algoritmo, ma sarà spiegato in modo molto intuitivo, molto pratico,

04:42questo lo vedremo per il perceptron, lo vedremo per il k-neighbors e lo faremo anche

04:46introducendo i concetti della programmazione ad oggetti, una competenza trasvessale che sarà

04:51sempre utilissima sia nell'utilizzo di python che di molti altri linguaggi di programmazione. Dopo

04:56aver ottenuto queste forti basi potremmo sì ora imparare ad utilizzare le librerie seaborn per la

05:02rappresentazione dei dati e scikit-learn per analisi più avanzate di machine learning. Vedremo

05:08come analizzare il classico dataset del titanic e andremo veramente in profondità negli algoritmi di

05:13machine learning trattando anche temi avanzati come la creazione di pipeline per automatizzare

05:19l'esecuzione di più algoritmi, i processi di convalida incrociata per capire bene quale

05:24algoritmo performa meglio di un altro e per ottimizzare i cosiddetti iperparametri degli

05:29algoritmi per ottenere risultati ancora più efficienti. Ulteriori approfondimenti sul machine

05:34learning riguarderanno gli algoritmi di regressione, l'analisi delle serie storiche, gli algoritmi di

05:39clustering. Come abbiamo stato in questa foto vedremo anche come rappresentare dei dati geografici

05:43aiutandoci con la libreria volume. Dedicheremo un capitolo all'analisi di dataset provenienti dal

05:49mondo del calcio, presenteremo il problema dunque di football analysis, ragioneremo sui dati acquisiti,

05:54li importeremo, li trasformeremo e faremo delle analisi con le librerie pandas e seaborn. All'interno

06:00del corso è anche presente una sezione dedicata ad un project work in cui vi farò vedere come

06:06potete presentare un vostro lavoro di machine learning. Da un lato ciò ci aiuterà a consolidare

06:11quando imparato, ma da un lato presentando il nostro lavoro potremo anche creare un

06:15portfoglio personale da data analyst che mostra in maniera tangibile le competenze che abbiamo acquisito.

Consigliato

4:18

Prossimi video

Introduzione alla Statistica descrittiva e inferenziale

Nicola Iantomasi - La Scuola dei Dati