কীভাবে নিখুঁত ডেটা গুদাম তৈরি করবেন

গুরুত্বপূর্ণ সংরক্ষণের কৌশলগুলি সহজ করা হয়েছে

ডেটা গুদামজাত করা: সরলীকৃত

সরেজমিনে, সাম্প্রতিক বছরগুলিতে তথ্য অধিগ্রহণ, স্টোরেজ এবং স্টোরেজের ক্ষেত্রে জিনিসগুলি অনেকটা পরিবর্তিত হয়েছে বলে মনে হচ্ছে। নোএসকিউএল, বিগ ডেটা, গ্রাফিক্স এবং স্ট্রিমিং প্রযুক্তিগুলির ভূমিকা এবং গ্রহণের ফলে ল্যান্ডস্কেপ পরিবর্তন হয়েছে বলে মনে হচ্ছে, তবে এখনও কিছু মৌলিক সমস্যা রয়েছে।

আমার বর্তমান ভূমিকার ক্ষেত্রে, আমরা আমাদের ডেটা গুদামজাতের জন্য অ্যামাজন রেডশিফ্ট ব্যবহার করি। আমরা ওরাকল বা হ্যাডোপে একটি ডেটা হ্রদ সহ একটি opতিহ্যবাহী ডেটা গুদাম নির্মাণ করি না কেন, মূল স্থাপত্যটি একই রয়েছে।

মূল আর্কিটেকচারটি কিছু প্রস্তুতিমূলক অঞ্চল এবং তিনটি পৃথক অঞ্চল (যদি আপনি রেডশিফ্ট ব্যবহার করছেন তবে স্কিমাস) যা স্টেজিং, মাস্টারিং এবং রিপোর্টিং নামে গঠিত is এই পোস্টে, আমি প্রতিটি বিশদে যাব।

প্রাক প্রসেসিং

দুর্ভাগ্যক্রমে, সমস্ত ডেটা সমানভাবে তৈরি হয় না তবে এটি এখনও ডেটা এবং তাই মূল্যবান।

বাহ্যিক তথ্যের জটিলতা মোকাবেলার জন্য, কিছু প্রাক-প্রসেসিং প্রায় অপরিহার্য, বিশেষত বিভিন্ন সংখ্যক উত্স থেকে সংগ্রহ করার সময়। প্রাক-প্রসেসিং পদক্ষেপের মূল লক্ষ্য হ'ল ডেটা গুদাম দ্বারা লোড করা যায় এমন একটি ধারাবাহিক বিন্যাসে ডেটা আনা।

এর মধ্যে অন্তর্ভুক্ত রয়েছে তবে সীমাবদ্ধ নয়:

  • এক্সেল স্প্রেডশিটগুলি সিএসভিতে রূপান্তর করুন
  • JSON ডেটা পার্সিং (আমরা প্রতিটি একক সারিতে একক কলামে প্রক্রিয়া করি এবং রেডশিফ্টটিকে পার্স করতে পারি, তবে আপনি এটির আগেও পার্স করতে পারেন)
  • দূষিত বা দূষিত ডেটা ফাইল পরিষ্কার করা

আপনার কাজ শেষ হয়ে গেলে আপনার একটি কেন্দ্রীয় অবস্থান প্রয়োজন যেখানে আপনি এই ফাইলগুলি ডেটা গুদামে লোড করার জন্য উপলব্ধ করতে পারেন।

একটি উদাহরণ সমস্ত ফাইল একটি অ্যামাজন এস 3 বালতিতে রাখে। এটি বহুমুখী, সস্তা, এবং অনেক প্রযুক্তির সাথে সংহত করে। আপনি যদি আপনার ডেটা গুদামের জন্য রেডশিফ্ট ব্যবহার করেন তবে এটি এটির সাথে ভালভাবে সংহতও করে।

মঞ্চায়ন

মঞ্চ অঞ্চলটি কোনও ডেটা গুদামের রুটি এবং মাখন।

একটি ভাল ডেটা গুদাম বিভিন্ন বিভিন্ন উত্স থেকে ডেটা ব্যবহার করে। প্রতিটি ডেটা উত্সের নিজস্ব সূক্ষ্মতা, শৈলী এবং নামকরণের কনভেনশন রয়েছে।

মঞ্চায়ন অঞ্চলটি যেখানে আপনি এই সমস্তগুলি নিয়ে এসেছেন - সম্ভবত প্রাক-প্রসেসিংয়ের পরে আপনি যেখানে রেখেছিলেন (তবে সবসময় নয়) - এবং এটি ক্রমটিতে আরও প্রক্রিয়া না করা পর্যন্ত অস্থায়ীভাবে রাখুন।

আসল গুদামে লোডিং এরিয়ার মতো। কার্গোটি যেখানে লোড করা হয়েছে সে স্থানটি চূড়ান্ত গন্তব্য নয় বা উপকরণ বা পণ্যগুলির চূড়ান্ত আকার নয়। এটি কেবল একটি থামার জায়গা।
আনস্প্ল্যাশ-এ হ্যানস এগারারের ছবি

প্রথমবারের মতো, আপনি গুদামের সীমানার মধ্যে সমস্ত ডেটা আরও প্রক্রিয়াজাতকরণ এবং মডেলিংয়ের জন্য প্রস্তুত রাখতে পারেন।

ব্যক্তিগতভাবে, আমি অনুভব করি যে মঞ্চের জায়গাগুলির ডেটা যতটা সম্ভব কাঁচা ডেটার কাছাকাছি হওয়া উচিত (আবার, আপনার কিছু পরিবর্তন করা দরকার, তবে এটি কাঁচা ডেটার কোনও পরিবর্তন করা উচিত নয়)। আপনি এমনকি মূল কলাম এবং টেবিলের নাম রাখতে চাইবেন। উত্সটিতে তদন্ত বা প্রতিবেদন করার সময় এটি পিছনে চিহ্নিত করা সহজ করে তোলে।

মঞ্চ অঞ্চলটিও অস্থায়ী হিসাবে দেখা উচিত।

আপনার নির্বাচিত সময়ের জন্য স্টেজিং এরিয়ায় ডেটা রাখা উচিত এবং তারপরে এটি পরিষ্কার করা উচিত। উদাহরণস্বরূপ, আপনি ব্যর্থ লোড বা অন্যান্য তদন্তের জন্য ডেটা উইন্ডোর ঘূর্ণায়মান মাস রাখতে পারেন।

এটি শেষ পয়েন্ট যেখানে ডেটা কাঁচা বিবেচনা করা উচিত। এই মুহুর্ত থেকে, ডেটাটি ডেটা গুদামের মানের সাথে সামঞ্জস্য করা উচিত।

মাস্টার

মাস্টার এরিয়ায় আগত ডেটাগুলি আসল রূপ নেয়।

মাস্টার স্কিমাতে সঠিকভাবে মডেল করা টেবিল থাকতে হবে যা যথাযথভাবে নামকরণ করা হয়েছে। কলামের নামগুলিও তাদের ডেটার ধরণের সাথে সংশোধন করা উচিত।

এটি টেবিলগুলি কী এবং কী রয়েছে তা বোঝা সহজ করে তোলে এবং ব্যবহারের উন্নতি করে। পুরানো স্কুলে ডকুমেন্ট সংরক্ষণ করার মতোই।

আনস্প্ল্যাশ-এ ড্র্রু বিমেরের ছবি

মঞ্চ থেকে মাস্টার এ ডেটা সরানোর সময়, নিম্নলিখিতটি বিবেচনা করুন:

  • সমস্ত তারিখের ফর্ম্যাট এবং সময় অঞ্চলগুলির একই মানককরণ (প্রযোজ্য ক্ষেত্রে)
  • প্রয়োজনে সংখ্যাটি দশমিক জায়গায় কম করে গোল করুন
  • সম্ভাব্য সংবেদনশীলতা তৈরি করতে বা নেতৃস্থানীয় এবং অনুসরণযোগ্য স্থানগুলি সরাতে স্ট্রিংগুলি পরিষ্কার করুন
  • একই আকারে ঠিকানার মান Standard
  • একাধিক কলামে ডেটা বিভক্ত করুন বা জেএসএন থেকে নিষ্কাশন করুন
লিঙ্কযুক্ত কলামগুলির কলামের নামগুলি মিলছে তা নিশ্চিত করে আমি কিছুটা সময় ব্যয় করব।

উদাহরণস্বরূপ, যদি কিছু ওয়েব লগ থেকে আপনার ব্যবহারকারীর ডেটা থাকে তবে আপনার ব্যবহারকারীর ডেটা মঙ্গোডিবিতে এবং সম্ভবত ব্যবহারকারীদের সম্পর্কে কিছু বিজ্ঞাপনের ডেটা সংরক্ষণ করা হবে। আশা করি এই উত্সগুলিতে সমস্ত একটি অনন্য ব্যবহারকারীর আইডি থাকবে। যাইহোক, তারা সবাই একে একই জিনিস নাও বলতে পারে।

কলামের নামগুলিকে মানীকৃত করা আপনার বা আপনার ডেটা ব্যবহারকারীর পক্ষে স্বতঃস্ফূর্তভাবে বোঝা যায় যে কোন ডেটা একসাথে যুক্ত হতে পারে।

ডেটা ইঞ্জিনিয়ার হিসাবে এটি চূড়ান্ত শেষ লক্ষ্য।

আপনার কাছে এমন ডেটা রয়েছে যা ব্যবসায়ের ভাষা অনুসারে সুন্দরভাবে নামকরণ করা হয়েছে এবং সঠিকভাবে মডেলিং করা হয়েছে যাতে এটি তদন্ত বা নিচের দিকে গণনা করা যায়।

রিপোর্টিং

বেসিক কাজ সম্পন্ন হয়। আমরা প্রস্তুত এবং রেকর্ড, মডেল এবং পরিষ্কার। আমরা এখন আমাদের চকচকে নতুন ডেটা বিশ্বের কাছে উপলব্ধ করতে চাই। এখানেই প্রতিবেদনের স্তরটি কার্যকর হয়।

যদি আপনি ওরাকলে একটি সারি-ভিত্তিক ডেটা গুদাম ব্যবহার করেন তবে আপনি এই মুহুর্তে কিছু ফ্যাক্ট টেবিল এবং ডেটা মার্ট তৈরি করতে সক্ষম হতে পারেন। এটি প্রতিবেদনের স্তরগুলির জন্য একদম যুক্তিসঙ্গত ব্যবহারের কেস, কারণ আপনি যে কোনও শালীন প্রতিবেদনের সরঞ্জামকে শীর্ষে রাখতে পারেন এবং আপনি যেতে ভাল।

যাইহোক, এই traditionalতিহ্যবাহী ডেটা গুদামজাত কৌশলগুলির মধ্যে কয়েকটি ওরাকেলের মতো সারি ভিত্তিক স্টোরেজ সমাধানগুলির দক্ষতা বিবেচনা করে। এই সিস্টেমগুলি দক্ষতার সাথে ডেটা একত্রিত করতে পারে তবে বেশিরভাগ কলামের সাথে সারিগুলি অক্ষম, মূলত সারি-ভিত্তিক পদ্ধতির কারণে পুরো সারিটি হ্যান্ডেল করা আবশ্যক, এমনকি যদি ক্যোরির জন্য কেবল কয়েকটি কলাম প্রয়োজন হয় তবে।

আপনি যদি অ্যামাজন রেডশিফ্টের মতো স্তম্ভ ভিত্তিক ডেটা গুদাম ব্যবহার করেন তবে আপনার দৃষ্টিভঙ্গি আলাদা হওয়া উচিত। রেডশিফ্টটি বিস্তৃত সারণীগুলি বিবেচনা করে না এবং এক টেবিলের দিকে মাত্রা এবং তথ্যগুলি অস্বীকৃতি জানায় একাধিক মাত্রায় অগ্রাধিকার দেওয়া হয়।

রেডশিফ্ট ব্যবহার করার সময় এই উপায়ে মডেলিংয়ের নিম্নলিখিত সুবিধা রয়েছে:

  • অনেকগুলি যোগদানের চেয়ে রেডশিফ্ট প্রশস্ত টেবিলের সাথে সুখী হওয়ায় উন্নত দক্ষতা।
  • শেষ ব্যবহারকারী বা বিশ্লেষকদের জন্য ব্যবহারের সহজতা যারা ডেটা মডেলগুলির সাথে পরিচিত নয় কারণ তাদের লিঙ্কগুলির সাথে লড়াই করতে হবে না।
  • ক্যোয়ারীটি আরও সহজ কারণ রিপোর্ট করা সত্তার জন্য প্রয়োজনীয় সমস্ত ডেটা এক জায়গায়।
আনস্প্ল্যাশ-এ মিশেল হেন্ডারসনের ছবি

উদাহরণস্বরূপ, আসুন আমরা আপনার গ্রাহকদের সম্পর্কে কথা বলতে চাই say আপনার চটজলদি পরিষ্কার মাস্টার স্তরে আপনার কাছে একটি গ্রাহক টেবিল, একটি অর্ডার টেবিল, বিপণনের লগ টেবিল এবং কিছু ওয়েব অ্যানালিটিক্যাল ডেটা রয়েছে।

রেডশিফ্টে, আপনি প্রতিবেদনের স্তরের মধ্যে গ্রাহকদের একটি সারণী তৈরি করবেন। সমস্ত স্ট্যান্ডার্ড গ্রাহক ডেটা (আপনার ব্যক্তিগত ডেটা বিয়োগের জন্য যেমন প্রয়োজন হয় না) যেমন নিবন্ধকরণের তারিখ, সম্ভবত একটি জিপ কোড ইত্যাদি এগুলিতে সঞ্চিত থাকে।

আপনি কোনও মোবাইল ডিভাইসে নিবন্ধভুক্ত করেছেন কিনা বা আপনি আপনার স্মার্টফোন অ্যাপ্লিকেশন বা ডেস্কটপ অ্যাপ্লিকেশন ইনস্টল করেছেন কিনা তা জানতে পারবেন।

আপনি অর্ডার ডেটা লিঙ্ক করতে এবং কিছু ফ্যাক্ট কলাম তৈরি করতে পারেন, উদাঃ খ। এখন পর্যন্ত মোট পরিমাণ, প্রথম আদেশের তারিখ, শেষ আদেশের তারিখ এবং আদেশ সংখ্যা

বিপণনের স্প্রেডশিটে আপনি একই জিনিসটি তৈরি করবেন এবং প্রাসঙ্গিকভাবে, প্রেরিত, ক্লিক করা, ইত্যাদি ইমেলের সংখ্যা সম্পর্কিত কিছু প্রাসঙ্গিক তথ্য তৈরি করবেন

ওয়েব বিশ্লেষণে, আপনি ওয়েবসাইট, পছন্দসই ডিভাইস, সর্বাধিক সাধারণ ডিভাইসের ধরণ (ডেস্কটপ, মোবাইল ফোন ইত্যাদি) ইত্যাদির সর্বশেষ দর্শনের তারিখ প্রবেশ করতে পারেন etc.

আপনি ছবি পেতে।

আনসপ্ল্যাশ এ কার্লোস মুজা লিখেছেন

এটি সমস্ত প্রাসঙ্গিক মাত্রা এবং সত্য সহ একটি দুর্দান্ত বিস্তৃত গ্রাহক টেবিলের ফলাফল। আপনার বিশ্লেষকরা অধিগ্রহণের হারগুলি, আপনার গ্রাহক বেসে বিভিন্ন ডিভাইস ব্যবহার করে, উচ্চ-মূল্যবান গ্রাহকরা (এবং তাদের মধ্যে কোনও মিল রয়েছে), গ্রাহক মন্থন এবং ধরে রাখার জন্য এবং আরও অনেক কিছু থেকে সবকিছু গণনা করতে এটি ব্যবহার করতে পারেন।

শর্টকাট ছাড়াই এবং ডেটা গুদামের শক্তি সহ বেশিরভাগ উত্তোলন এক স্থান থেকে এই সমস্ত।

ডেটা গুদামগুলি সাধারণত সস্তা হয় না এবং আক্ষরিকভাবে ডেটা ক্র্যাক করার জন্য ডিজাইন করা হয়। এটির বেশিরভাগটি তৈরি করুন এবং আপনি এখানে যতটা পারেন তেমন করুন। কঠোর পরিশ্রম করার জন্য কম শক্তিশালী রিপোর্ট সার্ভারের অপেক্ষা না করে আপনার বিশ্লেষকদের অন্তর্দৃষ্টি মুক্ত করুন।

আপনি এটি সহজে এবং দ্রুত পর্যাপ্ত করে তুলতে পারলে বিশ্লেষকরা এর চেয়ে বেশি এটি ব্যবহার করতে প্রস্তুত হতে পারে।

সর্বমোট

আপনি যদি এই সহজ পদ্ধতির অনুসরণ করেন তবে আমি বিশ্বাস করি যে আপনি সম্পূর্ণরূপে কার্যকরী ডেটা গুদাম তৈরি করতে পারবেন যা কেবল প্রসারিত করা সহজ নয়, তবে এটি বোঝাও সহজ।

আপনি আপনার স্টেজিং, মাস্টার এবং রিপোর্টিং স্তরগুলিকে যৌক্তিক উপাদান হিসাবে ভাবতে চাইতে পারেন। এটি আপনার পক্ষে কাজ করতে পারে। আমি তাদের শারীরিকভাবে পৃথক রাখতে পছন্দ করি কারণ এটি কেবল ক্লিন অনুভব করে না, তবে শেষের ব্যবহারকারীরা কী ব্যবহার করতে পারে এবং পূর্ববর্তী রাজ্যগুলি থেকে কী দেখতে পারে তা আপনি সীমাবদ্ধও করতে পারেন।