Passer au contenu principal

PARIS : Snowflake lance Snowpark Connect pour Apache Spark

Partager :

PARIS : Snowflake lance Snowpark Connect pour Apache Spark

Snowflake lance Snowpark Connect pour Apache Spark, une nouvelle intégration en préversion publique qui permet d’exécuter du code Spark directement sur le moteur Snowflake.

Les utilisateurs bénéficient de performances accrues, de coûts réduits et d’une gestion simplifiée sans migration ni dépendance à des clusters Spark externes. Compatible avec Spark 3.5.x et les tables Apache Iceberg, cette solution renforce la gouvernance des données et s’intègre facilement aux outils existants.

Une approche innovante

L’intégration Snowpark Connect pour Apache Spark s’appuie sur une architecture client-serveur découplée qui sépare le code de l’utilisateur du cluster Spark où il s’exécute. Cette conception permet désormais à Snowflake de prendre en charge l’exécution des tâches Spark introduites depuis la version 3.4.

Avantages pour les utilisateurs

Avec Snowpark Connect, les clients bénéficient du moteur vectorisé haute performance de Snowflake pour leur code Spark, tout en évitant les contraintes liées à l’administration d’environnements Spark autonomes telles que la gestion des dépendances, la compatibilité des versions ou les mises à jour. Tout le code moderne Spark DataFrame, Spark SQL et les fonctions définies par l’utilisateur (UDF) peut être exécuté avec Snowflake.

Optimisation et mise à l’échelle

Snowflake prend automatiquement en charge l’optimisation et la mise à l’échelle, libérant les développeurs de la charge opérationnelle. La centralisation de l’exécution dans Snowflake renforce la gouvernance des données, en assurant une cohérence et une sécurité tout au long du cycle de vie, sans efforts redondants.

Intégration fluide

Snowpark Connect s’appuie sur l’architecture découplée de Spark Connect, qui envoie un plan logique non résolu à un cluster distant pour traitement. Cette approche client-serveur est au cœur de Snowpark depuis sa création. Snowpark Connect est compatible avec Spark 3.5.x, garantissant l’accès aux dernières fonctionnalités et optimisations.

Élimination des transferts de données

Cette innovation élimine le transfert coûteux et lent des données entre Spark et Snowflake, tout en simplifiant la gouvernance. Les organisations peuvent désormais exécuter du code Spark DataFrame, SQL et UDF dans Snowflake via Snowflake Notebooks, Jupyter notebooks, procédures stockées, VSCode, Airflow ou Snowpark Submit. L’intégration est fluide avec les stockages Snowflake, Iceberg (interne ou externe) et les options de stockage cloud.

Compatibilité avec Apache Iceberg

Snowpark Connect pour Spark est compatible avec les tables Apache Iceberg, qu’elles soient gérées en externe ou liées à un catalogue. Les entreprises bénéficient ainsi de la performance, de la simplicité et de la gouvernance Snowflake sans déplacer leurs données ni réécrire leur code Spark. Plus d’informations sur Snowpark Connect sont disponibles dans cet article de blog et cette vidéo explicative.

À propos de Snowflake

Snowflake est la plateforme à l’ère de l’IA. Elle permet aux entreprises d’innover plus rapidement et de valoriser leurs données. Plus de 11 000 entreprises à travers le monde, dont des centaines parmi les plus importantes au monde, utilisent le Cloud de données IA de Snowflake pour créer, exploiter et partager des données, des applications et des solutions d’IA. Avec Snowflake, les données et l’intelligence artificielle sont transformatrices pour tous. Pour en savoir plus, rendez-vous sur snowflake.com.