|
Dans le contexte d'Apache Spark, « SQLContext » était un point d'entrée pour travailler avec des données structurées à l'aide de requêtes SQL. Cela vous a permis de :
* Créer des DataFrames : L'objectif principal était de créer des DataFrames à partir de diverses sources de données (comme des fichiers CSV, des fichiers JSON, des tables Hive, etc.). Les DataFrames sont des collections structurées de données organisées en colonnes nommées.
* Exécuter des requêtes SQL : Vous pouvez exécuter des requêtes SQL directement sur des DataFrames enregistrés en tant que tables temporaires ou persistantes dans le moteur Spark SQL.
* Accéder aux fonctionnalités Spark SQL : Il donnait accès aux différentes fonctionnalités du moteur Spark SQL, telles que les transformations de données, les agrégations et d'autres opérations de type SQL.
Cependant, `SQLContext` est obsolète. Il a été remplacé par « SparkSession » dans les versions ultérieures de Spark. `SparkSession` combine les fonctionnalités de `SQLContext`, `HiveContext` et `StreamingContext` en un seul point d'entrée, offrant une approche plus unifiée et rationalisée du travail avec Spark.
Essentiellement, si vous rencontrez « SQLContext » dans un ancien code Spark, vous devez migrer vers l'utilisation de « SparkSession ». Ils servent le même objectif fondamental, mais « SparkSession » est l'approche recommandée et prise en charge dans le développement Spark moderne. Ils interagissent tous deux en fin de compte avec le moteur Spark SQL, mais « SparkSession » offre une expérience plus intégrée.
|