Dans le contexte d'Apache Spark, « SQLContext » était un point d'entrée pour travailler avec des données structurées à l'aide de requêtes SQL. Cela vous a permis de :

* Créer des DataFrames : L'objectif principal était de créer des DataFrames à partir de diverses sources de données (comme des fichiers CSV, des fichiers JSON, des tables Hive, etc.). Les DataFrames sont des collections structurées de données organisées en colonnes nommées.

* Exécuter des requêtes SQL : Vous pouvez exécuter des requêtes SQL directement sur des DataFrames enregistrés en tant que tables temporaires ou persistantes dans le moteur Spark SQL.

* Accéder aux fonctionnalités Spark SQL : Il donnait accès aux différentes fonctionnalités du moteur Spark SQL, telles que les transformations de données, les agrégations et d'autres opérations de type SQL.

Cependant, `SQLContext` est obsolète. Il a été remplacé par « SparkSession » dans les versions ultérieures de Spark. `SparkSession` combine les fonctionnalités de `SQLContext`, `HiveContext` et `StreamingContext` en un seul point d'entrée, offrant une approche plus unifiée et rationalisée du travail avec Spark.

Essentiellement, si vous rencontrez « SQLContext » dans un ancien code Spark, vous devez migrer vers l'utilisation de « SparkSession ». Ils servent le même objectif fondamental, mais « SparkSession » est l'approche recommandée et prise en charge dans le développement Spark moderne. Ils interagissent tous deux en fin de compte avec le moteur Spark SQL, mais « SparkSession » offre une expérience plus intégrée.

Article précédent： Quelle est l’importance d’Oracle 9i ?
Article suivant： Qu’est-ce que le verrouillage des tabulations dans SQLserver ?