Apache Arrow si sta affermando come lo standard di fatto per l’interscambio di dati in ambito big data e data engineering. Ma PyArrow offre molto di più che un formato dati e ci permette in pratica di implementare una soluzione completa, dall’archiviazione, all’analisi, alla trasmissione via rete.
PyArrow è l’implementazione Python di Apache Arrow, ed è una delle più complete disponibili per lo standard. Nonostante i più di 70 milioni di download mensili ed il fatto che Arrow sia oggi giorno al centro di alcune delle più importanti tecnologie nell’ambito dell’ingegneria dei dati, ancora pochi conoscono tutte le potenzialità di PyArrow.
In questo talk vedremo assieme come PyArrow è in verità una soluzione completa che vi consente di implementare sistemi di archiviazione, fruizione, analisi e trasmissione dei dati incredibilmente ottimizzati in quanto offre al suo interno già tutte le componenti necessarie.
Attualmente ricopre il ruolo di Senior Director of Open Source Engineering a Voltron Data, dove coordina i team che si occupani di sviluppare e mantenere soluzioni open source per l’analisi e la manipolazione dei dati. Tra cui Apache Arrow.
Autore di vari progetti open source in ambito python web tra cui il web framework TurboGears2, l’interprete javascript DukPy ed altri. Autore dei libri Modern Python Standard Library Cookbook e Crafting Test-Driven Software with Python