• банер_новини

Сервіс

Механізм очищення даних Spark Streaming
(I) DStream та RDD
Як відомо, обчислення Spark Streaming базуються на Spark Core, а ядром Spark Core є RDD, тому Spark Streaming також має бути пов'язаний з RDD. Однак Spark Streaming не дозволяє користувачам використовувати RDD безпосередньо, а абстрагує набір концепцій DStream, DStream та RDD – це інклюзивні зв'язки, які можна розуміти як шаблон декорування в Java, тобто DStream є вдосконаленням RDD, але поведінка подібна до RDD.
DStream та RDD мають кілька умов.
(1) мають подібні дії перетворення, такі як map, reduceByKey тощо, але також деякі унікальні, такі як Window, mapWithStated тощо.
(2) усі мають дії Action, такі як foreachRDD, count тощо.
Модель програмування є послідовною.
(B) Впровадження DStream у потокове передавання Spark
DStream містить кілька класів.
(1) Класи джерел даних, такі як InputDStream, специфічні для DirectKafkaInputStream тощо.
(2) Класи перетворення, зазвичай MappedDStream, ShuffledDStream
(3) класи виводу, зазвичай такі як ForEachDStream
З вищесказаного, дані від початку (вхід) до кінця (вихід) обробляються системою DStream, що означає, що користувач зазвичай не може безпосередньо генерувати та маніпулювати RDD, а отже, DStream має можливість та зобов'язання нести відповідальність за життєвий цикл RDD.
Іншими словами, Spark Streaming маєавтоматичне очищенняфункція.
(iii) Процес генерації RDD у Spark Streaming
Життєвий потік RDD у Spark Streaming приблизно такий.
(1) У InputDStream отримані дані перетворюються на RDD, наприклад, DirectKafkaInputStream, який генерує KafkaRDD.
(2) потім через MappedDStream та інші перетворення даних цей час безпосередньо називається RDD, що відповідає методу map для перетворення
(3) В операції вихідного класу, лише коли RDD доступне, ви можете дозволити користувачеві виконувати відповідне зберігання, інші обчислення та інші операції.