Big Data

Les nouveautés introduites par Apache Spark 4.0

Analyse des nouveautés apportées par Apache Spark 4, le framework open source de calcul distribué.

Ronan Maron

05 juin 2025 — 4 min read

Apache Spark 4.0 apporte plusieurs améliorations significatives à l'écosystème du traitement distribué de données. Cette version met l'accent sur une meilleure conformité aux standards SQL, une flexibilité accrue dans l’architecture, et des optimisations pour les workflows en Python et en streaming.

Toutefois, certaines nouveautés nécessitent une adaptation, et toutes ne conviendront pas forcément à tous les cas d’usage. Nous examinons ici les principales évolutions, leurs avantages, ainsi que leurs limites potentielles.

Les principales évolutions de Spark 4.0

Spark Connect : Une architecture client-serveur plus flexible

Explication

Spark Connect permet de séparer le client (où s’exécute le code utilisateur) du cluster Spark (où le traitement a lieu). Cette approche s’inspire des architectures classiques des bases de données (comme PostgreSQL avec son protocole frontend/backend).

Avantages

Meilleure isolation entre le développement et l’exécution.
Possibilité d’utiliser différents langages (Go, Rust, Swift) en plus de Python et Scala.
Facilité de débogage, car le client peut être exécuté localement tout en interagissant avec un cluster distant.

Limitations

Certaines fonctionnalités avancées (comme l’accès direct au RDD) ne sont pas disponibles en mode connect.

SQL enrichi : Conformité ANSI et nouvelles fonctionnalités

Explications des termes techniques

Mode ANSI par défaut : Active un comportement plus strict, conforme au standard SQL (ex : erreur en cas de division par zéro au lieu de renvoyer NULL).
UDFs SQL : Permet de définir des fonctions personnalisées (user defined functions) directement en SQL, sans passer par un langage comme Python ou Scala.
Syntaxe PIPE (|>) : Similaire à celle de dplyr (R) ou des pipelines Unix, elle permet d’enchaîner les opérations de manière plus lisible.

Avantages

Meilleure compatibilité avec d’autres moteurs SQL (Snowflake, BigQuery, etc.).
Réduction des risques d’injection SQL grâce aux marqueurs de paramètres (:var, ?).

Inconvénients

Le mode ANSI peut casser du code existant qui reposait sur des comportements non stricts (ex : conversions implicites).
Les UDFs SQL sont moins flexibles que celles écrites en Python ou Scala.

Améliorations pour PySpark : Visualisation et connecteurs Python

Nouveautés

.plot() natif : Permet de générer des graphiques directement depuis un DataFrame PySpark, sans conversion préalable vers pandas.
API Data Source en Python : Facilite l’écriture de connecteurs personnalisés (pour des formats de fichiers ou des bases de données) entièrement en Python.

Avantages

Gain de temps pour l’analyse exploratoire (EDA).
Élargissement de l’écosystème Spark aux développeurs Python purs.

Limitations

Les performances des UDFs Python restent inférieures à celles des UDFs Scala/Java.
La visualisation intégrée est basique comparée à des librairies comme Matplotlib ou Seaborn.

Streaming : Améliorations de la gestion d’état

Nouveautés techniques

transformWithState : Permet de gérer un état personnalisé entre les micro-lots, utile pour des agrégations complexes ou des fenêtres temporelles avancées.
State Data Source : Permet d’inspecter l’état interne du streaming sous forme de DataFrame (utile pour le débogage).

Avantages

Plus grande flexibilité pour les pipelines temps réel.
Meilleure observabilité des jobs streaming.

Inconvénients

Augmentation de la complexité pour les cas d’usage simples.
Risque de surcharge mémoire si l’état n’est pas correctement géré.

Gestion des données semi-structurées (type `VARIANT`)

Explication

Le type VARIANT permet de stocker du JSON imbriqué dans une colonne tout en permettant des requêtes efficaces sur les champs internes.

Avantages

Évite le parsing manuel pour les données semi-structurées.
Meilleure intégration avec les formats comme Avro ou Parquet.

Limitations

Requiert une optimisation des schémas pour éviter une dégradation des performances.
Moins flexible qu’une solution dédiée comme MongoDB ou Elasticsearch.

Gestion avancée des chaînes de caractères (Collations)

Explication

Spark 4.0 introduit la propriété COLLATE pour les types STRING, permettant de définir des règles de comparaison et de tri sensibles à la langue, aux accents, ou à la casse.

Avantages

Prise en charge de classements spécifiques.
Compatibilité avec les besoins internationaux (tri correct des caractères spéciaux).

Limitations

Peut impacter les performances si des collations complexes sont appliquées sur de grandes tables.

Journalisation structurée pour un débogage simplifié

Explication

Spark 4.0 adopte une journalisation structurée (logs au format JSON), facilitant l’intégration avec les outils d'observabilité de l'écosystème Data.

Avantages

Logs enrichis avec des métadonnées (timestamp, niveau de log, contexte MDC).
Meilleure observabilité des jobs, surtout dans des environnements distribués.

Limitations

Nécessite une adaptation des pipelines de monitoring existants.

Scripts SQL : Des workflows complexes en pur SQL

Explication

Spark 4.0 permet d’exécuter des scripts SQL multi-étapes avec :

Variables locales (DECLARE, SET).
Structures de contrôle (IF, LOOP).
Gestion d’erreurs (à venir dans les versions futures).

Avantages

Réduction de la dépendance aux langages externes (Python/Scala) pour l’ETL.
Meilleure lisibilité pour les équipes orientées SQL.

Limitations

Moins flexible que des scripts Python/Scala pour des logiques très complexes.

Cas d’usage et recommandations

Quand migrer vers Spark 4.0 ?

Si vous avez besoin d’une meilleure conformité SQL (migrations depuis d’autres entrepôts de données).
Si vous utilisez intensivement PySpark et souhaitez profiter des nouvelles APIs Python.

Quand attendre ?

Si votre application repose sur des comportements non-ANSI (vérifiez la compatibilité).
Si vous utilisez des fonctionnalités avancées du RDD qui ne sont pas encore supportées par Spark Connect.

Conclusion

Spark 4.0 apporte des avancées notables, notamment en SQL, en Python et en streaming. Cependant, certaines nouveautés nécessitent une adaptation, et toutes ne sont pas pertinentes pour tous les projets.

Points forts ✅

Meilleure conformité SQL (ANSI).
Flexibilité accrue avec Spark Connect.
Améliorations pour PySpark et le streaming.

Points à surveiller ⚠️

Rétrocompatibilité partielle (surtout avec le mode ANSI).
Performances des UDFs Python toujours limitées.
Complexité accrue dans certains cas (streaming avec état).

Une migration progressive, avec des tests approfondis, est recommandée pour éviter les mauvaises surprises.

Sources

Introducing Apache Spark 4.0 | Databricks Blog
Spark Release 4.0.0
TransformWithState for Structured Streaming in Upcoming Apache Spark™ 4.0 | LinkedIn - Apache Spark
Documentation Apache Spark

Les principales évolutions de Spark 4.0

Spark Connect : Une architecture client-serveur plus flexible

Explication

Avantages

Limitations

SQL enrichi : Conformité ANSI et nouvelles fonctionnalités

Explications des termes techniques

Avantages

Inconvénients

Améliorations pour PySpark : Visualisation et connecteurs Python

Nouveautés

Avantages

Limitations

Streaming : Améliorations de la gestion d’état

Nouveautés techniques

Avantages

Inconvénients

Gestion des données semi-structurées (type VARIANT)

Explication

Avantages

Limitations

Gestion avancée des chaînes de caractères (Collations)

Explication

Avantages

Limitations

Journalisation structurée pour un débogage simplifié

Explication

Avantages

Limitations

Scripts SQL : Des workflows complexes en pur SQL

Explication

Avantages

Limitations

Cas d’usage et recommandations

Quand migrer vers Spark 4.0 ?

Quand attendre ?

Conclusion

Points forts ✅

Points à surveiller ⚠️

Sources

Read more

Apache Parquet : Le format de stockage incontournable pour le Big Data

Les 10 concepts mathématiques essentiels en informatique

Apache Airflow : Un outil d'orchestration de Workflows pour les Data Engineers

Solution CSS pour éviter le scrolling horizontal des tableaux dans Ghost

Gestion des données semi-structurées (type `VARIANT`)