• নিউজ_ব্যানার

সেবা

স্পার্ক স্ট্রিমিং ডেটা পরিষ্কারের প্রক্রিয়া
(I) ডিস্ট্রিম এবং আরডিডি
আমরা জানি, স্পার্ক স্ট্রিমিং গণনা স্পার্ক কোরের উপর ভিত্তি করে তৈরি, এবং স্পার্ক কোরের মূল হল RDD, তাই স্পার্ক স্ট্রিমিং অবশ্যই RDD এর সাথে সম্পর্কিত হতে হবে। যাইহোক, স্পার্ক স্ট্রিমিং ব্যবহারকারীদের সরাসরি RDD ব্যবহার করতে দেয় না, তবে DStream ধারণার একটি সেটকে সারাংশ করে, DStream এবং RDD হল অন্তর্ভুক্তিমূলক সম্পর্ক, আপনি এটিকে জাভাতে সাজসজ্জার ধরণ হিসাবে বুঝতে পারেন, অর্থাৎ, DStream হল RDD এর একটি বর্ধিতকরণ, তবে আচরণটি RDD এর অনুরূপ।
DStream এবং RDD উভয়েরই বেশ কিছু শর্ত রয়েছে।
(১) এর ট্রান্সফর্মেশন অ্যাকশন একই রকম, যেমন ম্যাপ, রিডুসবাইকি ইত্যাদি, কিন্তু কিছু অনন্য, যেমন উইন্ডো, ম্যাপউইথস্টেটেড ইত্যাদি।
(২) সকলেরই অ্যাকশন অ্যাকশন আছে, যেমন foreachRDD, count, ইত্যাদি।
প্রোগ্রামিং মডেলটি সামঞ্জস্যপূর্ণ।
(খ) স্পার্ক স্ট্রিমিং-এ ডিস্ট্রিমের ভূমিকা
ডিস্ট্রিমে বেশ কয়েকটি ক্লাস রয়েছে।
(১) ডেটা সোর্স ক্লাস, যেমন InputDStream, নির্দিষ্টভাবে DirectKafkaInputStream, ইত্যাদি।
(২) রূপান্তর ক্লাস, সাধারণত ম্যাপডডিস্ট্রিম, শাফলডডিস্ট্রিম
(3) আউটপুট ক্লাস, সাধারণত যেমন ForEachDStream
উপরের দিক থেকে, শুরু (ইনপুট) থেকে শেষ (আউটপুট) পর্যন্ত ডেটা DStream সিস্টেম দ্বারা সম্পন্ন হয়, যার অর্থ ব্যবহারকারী সাধারণত সরাসরি RDD তৈরি এবং পরিচালনা করতে পারে না, যার অর্থ DStream-এর RDD-এর জীবনচক্রের জন্য দায়ী হওয়ার সুযোগ এবং বাধ্যবাধকতা রয়েছে।
অন্য কথায়, স্পার্ক স্ট্রিমিং-এর একটিস্বয়ংক্রিয় পরিষ্কারফাংশন।
(iii) স্পার্ক স্ট্রিমিং-এ RDD তৈরির প্রক্রিয়া
স্পার্ক স্ট্রিমিং-এ RDD-এর জীবনপ্রবাহ মোটামুটি নিম্নরূপ।
(১) InputDStream-এ, প্রাপ্ত ডেটা RDD-তে রূপান্তরিত হয়, যেমন DirectKafkaInputStream, যা KafkaRDD তৈরি করে।
(২) তারপর MappedDStream এবং অন্যান্য ডেটা রূপান্তরের মাধ্যমে, এই সময়টিকে সরাসরি RDD বলা হয় যা রূপান্তরের জন্য মানচিত্র পদ্ধতির সাথে সম্পর্কিত
(৩) আউটপুট ক্লাস অপারেশনে, শুধুমাত্র যখন RDD উন্মুক্ত হয়, তখন আপনি ব্যবহারকারীকে সংশ্লিষ্ট স্টোরেজ, অন্যান্য গণনা এবং অন্যান্য ক্রিয়াকলাপ সম্পাদন করতে দিতে পারেন।