স্পার্ক স্ট্রিমিং ডেটা ক্লিনিং মেকানিজম
(I) DStream এবং RDD
আমরা জানি, স্পার্ক স্ট্রিমিং গণনা স্পার্ক কোরের উপর ভিত্তি করে, এবং স্পার্ক কোরের মূল হল RDD, তাই স্পার্ক স্ট্রিমিং অবশ্যই RDD এর সাথে সম্পর্কিত হতে হবে।যাইহোক, স্পার্ক স্ট্রিমিং ব্যবহারকারীদের সরাসরি RDD ব্যবহার করতে দেয় না, কিন্তু DStream ধারণাগুলির একটি সেটকে বিমূর্ত করে, DStream এবং RDD হল অন্তর্ভুক্ত সম্পর্ক, আপনি এটিকে জাভাতে সাজসজ্জা প্যাটার্ন হিসাবে বুঝতে পারেন, অর্থাৎ, DStream হল RDD-এর একটি বর্ধন, কিন্তু আচরণ RDD অনুরূপ.
ডিস্ট্রিম এবং আরডিডি উভয়েরই বেশ কয়েকটি শর্ত রয়েছে।
(1) একই রকম ট্রান্সফরমেশন অ্যাকশন আছে, যেমন মানচিত্র, reduceByKey, ইত্যাদি, কিন্তু কিছু অনন্য, যেমন Window, mapWithStated, ইত্যাদি।
(2) সকলেরই অ্যাকশন অ্যাকশন রয়েছে, যেমন foreachRDD, গণনা ইত্যাদি।
প্রোগ্রামিং মডেল সামঞ্জস্যপূর্ণ.
(B) স্পার্ক স্ট্রিমিং-এ DStream-এর ভূমিকা
ডিস্ট্রিমে বেশ কয়েকটি ক্লাস রয়েছে।
(1) ডাটা সোর্স ক্লাস, যেমন InputDStream, নির্দিষ্ট যেমন DirectKafkaInputStream, ইত্যাদি।
(2) রূপান্তর ক্লাস, সাধারণত MappedDStream, ShuffledDStream
(3) আউটপুট ক্লাস, সাধারণত যেমন ForEachDStream
উপরের থেকে, শুরু থেকে (ইনপুট) থেকে শেষ পর্যন্ত (আউটপুট) ডেটা DStream সিস্টেম দ্বারা সম্পন্ন হয়, যার মানে হল যে ব্যবহারকারী সাধারণত সরাসরি RDD তৈরি এবং ম্যানিপুলেট করতে পারে না, যার মানে হল যে DStream এর সুযোগ এবং বাধ্যবাধকতা রয়েছে RDD এর জীবনচক্রের জন্য দায়ী।
অন্য কথায়, স্পার্ক স্ট্রিমিংয়ের একটি আছেস্বয়ংক্রিয় পরিষ্কারফাংশন
(iii) স্পার্ক স্ট্রিমিং-এ RDD জেনারেশনের প্রক্রিয়া
স্পার্ক স্ট্রিমিং-এ RDD-এর জীবন প্রবাহ নিম্নরূপ রুক্ষ।
(1) InputDStream-এ, প্রাপ্ত ডেটা RDD-তে রূপান্তরিত হয়, যেমন DirectKafkaInputStream, যা KafkaRDD তৈরি করে।
(2) তারপর MappedDStream এবং অন্যান্য ডেটা রূপান্তরের মাধ্যমে, এই সময়টিকে সরাসরি রূপান্তরের জন্য মানচিত্র পদ্ধতির সাথে সম্পর্কিত RDD বলা হয়
(3) আউটপুট ক্লাস অপারেশনে, শুধুমাত্র যখন RDD প্রকাশ করা হয়, আপনি ব্যবহারকারীকে সংশ্লিষ্ট স্টোরেজ, অন্যান্য গণনা এবং অন্যান্য ক্রিয়াকলাপ সম্পাদন করতে দিতে পারেন।