ডেটা সায়েন্স মডেলিং: পাইথনের সাথে লিনিয়ার রিগ্রেশন ব্যবহার করা

R², গড় স্কোয়ার ত্রুটি এবং আরও অনেক কিছু দেখুন

ব্রায়ান হেনরিকুইজ, ক্রিস কাজাকিস এবং ডিন স্যাবলেট

আনস্প্ল্যাশ-এ প্রচারণা নির্মাতাদের ছবি

ভূমিকা এবং লক্ষ্য

লিনিয়ার রিগ্রেশন একটি লিনিয়ার রিগ্রেশন মডেলের তুলনামূলকভাবে সহজ বাস্তবায়ন এবং ব্যাখ্যার কারণে ডেটা সায়েন্সে একটি বহুল ব্যবহৃত কৌশল।

এই টিউটোরিয়ালে পাইথন ব্যবহার করে 80 সিরিয়াল ডেটাসেটের একক এবং একাধিক লিনিয়ার রিগ্রেশন মডেলগুলি উপস্থাপন করা হয়েছে। এটি কিছু প্রাসঙ্গিক রিগ্রেশন মেট্রিকগুলি ব্যাখ্যা করে তবে পাইথনে লিনিয়ার রিগ্রেশন সম্পর্কিত কোনও পূর্বের জ্ঞানের প্রয়োজন নেই। ৮০ প্রকারের শস্যের সাথে সেট করা ডেটা এখানে পাওয়া যাবে।

এখানে কিছু লক্ষ্য রয়েছে:

  • আর এর অর্থ এবং সীমাবদ্ধতাগুলি বুঝুন ²
  • লিনিয়ার রিগ্রেশন সারাংশ মেট্রিক্স এবং সেগুলি কখন ব্যবহার করবেন সে সম্পর্কে আরও জানুন
  • 80 সিরিয়াল ডেটাসেট ব্যবহার করে একটি সাধারণ এবং বহু-লিনিয়ার রেগ্রেশন মডেল প্রয়োগ করুন

তথ্য পরীক্ষা করুন

ডেটাसेट ডাউনলোড করার পরে প্রয়োজনীয় পাইথন প্যাকেজ এবং শস্য ডেটাসেট নিজেই আমদানি করুন:

সিরিয়াল.হেড থেকে আউটপুট ()

এখানে আমরা দেখতে পাচ্ছি যে প্রতিটি সারি শস্যের ব্র্যান্ড এবং প্রতিটি কলামই শস্যের পুষ্টিকর (প্রোটিন, ফ্যাট ইত্যাদি) বা শনাক্তকারী (উত্পাদনকারী, প্রকার)। লক্ষ্য করুন যে স্কোরটি উত্তর বা নির্ভরশীল পরিবর্তনশীল।

এরপরে, আমরা ডেটাসেটের প্রতিটি বৈশিষ্ট্যের মধ্যে পারস্পরিক সম্পর্কের একটি জুড়ি তৈরি করেছি এবং সেই দৃশ্য থেকে তিনটি পূর্বাভাসকারী ভেরিয়েবল নির্বাচন করেছি: ক্যালোরি, ফাইবার এবং চিনি। প্রতিটি পারস্পরিক সম্পর্ক দেখানোর প্লটটি এখানে বিভক্ত করার পক্ষে খুব বড়, তবে আমরা ছোট জোড় যুক্ত একটি প্লটটি ঘনিষ্ঠভাবে দেখতে পারি যাতে কেবলমাত্র আমাদের পূর্বাভাসের ভেরিয়েবলগুলি অন্তর্ভুক্ত থাকে। Seaborn.pairplot এর সাথে আমরা লাগানো সর্বনিম্ন বর্গাকার লাইনের সাথে তিনটি স্ক্রেটারপ্লট দেখতে পারি:

প্রতিক্রিয়ার ভেরিয়েবলের সাথে প্রতিটি ভবিষ্যদ্বাণী ভেরিয়েবলের জুড়ি প্লট

এখন যেহেতু আমরা ডেটাটির সাথে পরিচিত, আমরা আমাদের লিনিয়ার রিগ্রেশন মডেল স্থাপন শুরু করতে পারি।

দ্রষ্টব্য: ধারণাগুলি সহজেই জানাতে, আমরা কোনও পরীক্ষার / ট্রেনের ডেটা বিভাগের ভিত্তিতে R the এবং সমন্বিত R adj মান গণনা করি না। নোট, তবে, এলোমেলোভাবে নির্বাচিত পর্যবেক্ষণগুলির একটি পরীক্ষা / ট্রেন বিভাজন ব্যবহার করা সেরা অভ্যাস হিসাবে বিবেচিত হয়। এইভাবে আমরা টিউটোরিয়ালটির শেষে আমাদের ভুল এবং এআইসি / বিআইসি পরিচয় করিয়ে দেব।

লিনিয়ার রিগ্রেশন মডেল

লিনিয়ার রিগ্রেশন মডেলগুলির জন্য আমরা আর ² এবং এর গুরুত্ব সম্পর্কে আলোচনা করতে চাই। তবে R² আসলে কী তা বুঝতে, আমাদের প্রথমে লিনিয়ার মডেলটি কী তা বুঝতে হবে। আসুন এমন একটি ছড়িয়ে ছিটিয়ে প্লটটি দেখুন যা সিরিয়াল এবং তাদের রেটিংয়ের পরিবেশনায় ক্যালোরিগুলির তুলনা করে:

রেটিং এবং ক্যালোরির স্কেটর প্লট

আমরা পরিষ্কারভাবে দেখতে পাই যে আরও বেশি ক্যালোরিযুক্ত সিরিয়াল পরিবেশনগুলি সাধারণত কম রেটিং পায়। এই দুটি ভেরিয়েবলের মধ্যে একটি সম্পর্ক রয়েছে বলে ধরে নেওয়া, আমরা এমন একটি মডেল তৈরি করতে পারি যা এটিতে থাকা ক্যালোরির সংখ্যার ভিত্তিতে একটি শস্যের রেটিংয়ের পূর্বাভাস দেয়।

সম্পর্কটি সত্যই লিনিয়ার কিনা তা পরীক্ষা করতে, আমরা আমাদের মডেলের অবশিষ্টাংশগুলিকে একটি গ্রাফে প্লট করতে পারি এবং নিদর্শনগুলি খুঁজতে পারি। অবশিষ্টগুলির একটি পরিষ্কার প্যাটার্ন ইঙ্গিত দিতে পারে যে অন্য একটি মডেল, যেমন। বি। একটি চতুর্ভুজ বা লোগারিথমিক মডেল যা দুটি ভেরিয়েবলের মধ্যে সম্পর্কের আরও ভালভাবে বর্ণনা করে। আসুন অবশিষ্টগুলি পরীক্ষা করুন:

যেহেতু অবশিষ্টাংশগুলির সুস্পষ্ট প্যাটার্ন নেই, তাই কোনও আরও ভাল মানানসই, অন-লাইন সমীকরণের কোনও প্রমাণ নেই।

লিনিয়ার রিগ্রেশন জন্য আমরা সূত্রে আগ্রহী:

এক্স প্রতিক্রিয়ার ভেরিয়েবল y এর জন্য প্রেডিকটার ভেরিয়েবল

একটি মডেল তৈরি করতে আমরা স্কিপি লিনিগ্র্রেস পদ্ধতিটি ব্যবহার করতে পারি।

এবং আমরা নিম্নলিখিত আউটপুট পেতে:

  • লিনিগ্র্রেস রেজাল্ট (opeাল = -0.49701318979564285, অক্ষ ইন্টারসেপ্ট = 95.78802384439143, আর-মান = -0.6893760311652586, পি-মান = 4.1402774000064275e-12, স্টেডার = 0.06030617024600228)

প্রথম উপাদানটি হ'ল বি_, দ্বিতীয়টি বি-টি, এবং তৃতীয় মান হ'ল আর মান, যা সংযোগ সহগ হিসাবেও পরিচিত। আর-মান 1 থেকে -1 অবধি এবং ব্যাখ্যামূলক ভেরিয়েবল এবং প্রতিক্রিয়ার ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি পরিমাপ করে। রেটিংয়ের তুলনায় ক্যালরির জন্য আর-মান হল -689, যা দেখায় যে দুটি ভেরিয়েবলের মধ্যে দৃ a় নেতিবাচক সম্পর্ক রয়েছে। আর-মানটি 0 থেকে আরও বেশি, কোনও মডেল মানগুলির পূর্বাভাস দিতে পারে।

আর

আর স্কোয়ার করে, আমরা দৃ determination় সংকল্প R² এর সহগ পাই ² R² হ'ল একটি মান যা ইঙ্গিত করে যে y ভেরিয়েবলের কত শতাংশ তারতম্যকে x ভেরিয়েবলের প্রকারের দ্বারা ব্যাখ্যা করা যেতে পারে। একটি উচ্চতর R² মান একটি শক্তিশালী মডেল নির্দেশ করে। আসুন আমাদের ডেটা সেটে কিছু R² মান দেখুন:

আমরা নিম্নলিখিত মুদ্রণ:

  • কাপ প্রেডিক্টর সহ মডেলটির আর:: 0.0412740112014871
  • মডেলটির আর ক্যালোরি প্রিডেক্টর সহ: 0.4752393123451636

এই R² মানগুলি আমাদের দেখায় যে ক্যালরিগুলি কাপের চেয়ে মূল্যায়নের জন্য আরও ভাল প্রাগনোসিস।

সাধারণ লিনিয়ার রিগ্রেশন দরকারী, তবে আমরা প্রায়শই দেখতে চাই যে একক ভেরিয়েবলের পূর্বাভাস দেওয়ার জন্য একাধিক ভেরিয়েবল কীভাবে ব্যবহার করা যেতে পারে। আসুন আমাদের আগ্রহের সমস্ত ভেরিয়েবলের সাথে টুকরো টুকরো করে দানা থেকে ভবিষ্যতবাণীগুলির 2D অ্যারে তৈরি করি। ক্যালরি, ফাইবার এবং চিনি সবসময়ই পূর্বাভাসকারী হিসাবে প্রমাণিত হয় যখন আমরা এর আগে পারস্পরিক সম্পর্কের জোড়গুলির উপস্থাপনা পরীক্ষা করেছি। সুতরাং আসুন একটি মডেল দেখুন যা এই তিনটি কারণকে ব্যবহার করে:

আমরা নিম্নলিখিত আউটপুট পেতে:

  • আর: 0.8483669504178866
  • আর সেট: 0.8070124823500374

আমরা দেখতে পেয়েছি যে ওয়ান-ভেরিয়েবল মডেলের R in মান (ভবিষ্যদ্বাণীকারী হিসাবে ক্যালোরিযুক্ত) .475 থেকে .848 এ বৃদ্ধি পেয়েছে। এটি আমাদের মডেলের ভবিষ্যদ্বাণীপূর্ণ শক্তি বৃদ্ধি পেয়েছে বলে ইঙ্গিত দেয়।

যাইহোক, আসুন এই একাধিক লিনিয়ার রিগ্রেশন মডেলটিতে একটি খারাপ প্রেডিক্টর (কাপ) যুক্ত করুন এবং দেখুন কী ঘটে:

এই কোডটি নিম্নলিখিত আউটপুট দেয়:

  • আর: 0.8490487016343364
  • আর সেট: 0.788668182288071

এটি মনে রাখা উচিত যে সিরিয়াল পরিবেশনের জন্য কাপের সংখ্যার প্রতিটি পৃথক ক্ষেত্রে ভোক্তার রেটিংয়ের সাথে খুব কম সম্পর্ক রয়েছে বলে মনে হয়। যাইহোক, আমরা যখন এটি মডেলটিতে যুক্ত করি তখন মোট R² মান 0.849 এ বৃদ্ধি পায়, যা ইঙ্গিত দেয় যে মডেলের ভবিষ্যদ্বাণীপূর্ণ শক্তি উন্নতি করে। আমাদের জ্ঞানের সেরা, তবে, এই চার-পরিবর্তনশীল মডেলটি তিন-পরিবর্তনশীল মডেলের চেয়ে ভাল হওয়া উচিত নয়। R² মান গণনার কারণে, কোনও মডেলে আরও ভেরিয়েবল যুক্ত করা সর্বদা R² মান বাড়ায়। সুতরাং আমাদের সামঞ্জস্য করা R² মানগুলি তুলনা করতে হবে, যা অতিরিক্ত ভেরিয়েবলের কারণে R² এর বৃদ্ধিকে কমিয়ে দেয়। সেটটি R the এর সূত্রটি

মোট এন নমুনার আকার, পূর্বাভাসকারীদের সংখ্যা

এইভাবে, আমরা দেখতে পেলাম যে তিনটি ভেরিয়েবল মডেলটির ফিটেস আরও 0.807 রয়েছে এবং চারটি ভেরিয়েবলের মডেলের 0.88 এর ফিট লাগানো র। রয়েছে। সুতরাং, ত্রি-পরিবর্তনশীল মডেলটি এই মেট্রিক দ্বারা আরও ভাল।

লিনিয়ার মডেল কতটা উপাত্ত ফিট করে তা নির্ধারণের জন্য আর the হ'ল একটি গুরুত্বপূর্ণ মেট্রিক। অতএব, এর অর্থ কী তা সম্পর্কে একটি স্বজ্ঞাত জ্ঞান থাকা জরুরী। লিনিয়ার রিগ্রেশন মডেলগুলি বাস্তবায়নের সময় সমান গুরুত্বপূর্ণ র ² এর সীমাবদ্ধতা এবং এই সীমাবদ্ধতাগুলি কীভাবে প্রশমিত করা যায় তা বোঝা।

গড় স্কয়ার ত্রুটি (এমএসই)

রিগ্রেশন মডেলগুলির বিভিন্ন স্কোরিং মেট্রিক রয়েছে। সর্বাধিক ব্যবহৃত একটি মেট্রিক মানে স্কোয়ার ত্রুটি (এমএসই)।

উৎস

এমএসই হ'ল একটি রেটিং মেট্রিক যা পর্যবেক্ষিত এবং পূর্বাভাসিত মানের মধ্যে বর্গক্ষেত্রের পার্থক্যগুলির গড় পরিমাপ করে। অন্য কথায়, এমএসই হ'ল আমাদের লিনিয়ার রিগ্রেশন মডেলটি কতটা নির্ভুল বা অসম্পূর্ণ। এমএসই যত কম হবে, মডেলটির পূর্বাভাস দেয় "ভাল" মানগুলি। এখানে আপনি আমাদের রিগ্রেশন মডেলটির এমএসই পেতে পারেন:

আমাদের পরিবর্তনশীল এমএসে 26.6329 ফেরত দেয়।

আমাদের হাতে থাকা আরও একটি স্কোরিং মেট্রিক মানে স্কোয়ার ত্রুটি (আরএমএসই), যা কেবল আমাদের এমএসইর বর্গমূল। পাইথন ম্যাথ মডিউল থেকে স্কয়ার রুট ফাংশনটি ব্যবহার করে sqrt (mse) মান 5.1607 প্রদান করে।

এটি আমাদের জেনে রাখা জরুরী যে আমাদের আরএমএসই মানটির প্রতিক্রিয়া হিসাবে একই ইউনিট রয়েছে (আমরা স্কোয়ার ত্রুটির বর্গমূল গ্রহণ করেছি)। আমাদের 5.1607 এর আরএমএসই মান 0 থেকে 100 এর মূল্যায়নের ভেরিয়েবলের পরিসরে তুলনামূলকভাবে কম, যাতে আমাদের একাধিক লিনিয়ার রিগ্রেশন মডেল একটি ব্র্যান্ডের সিরিয়াল "ভাল" এর মূল্যায়নের পূর্বাভাস দিতে পারে। তবে আমরা অন্যান্য ত্রুটিগুলিও ব্যবহার করতে পারি।

মোটামুটি সম্পূর্ণ ত্রুটি (এমএই)

পরবর্তী রিগ্রেশন ওজন মেট্রিক আমরা বিবেচনা করে তা হল গড় পরম ত্রুটি (এমএই)।

উৎস

যেহেতু এমএসই অবশিষ্টগুলির মধ্যে পার্থক্যটিকে স্কোয়ার করে, তাই প্রকৃত এবং পূর্বাভাসিত মানগুলির মধ্যে বৃহত্তর পার্থক্য এমএইয়ের চেয়ে এমএসই দ্বারা "আরও কঠোরভাবে শাস্তি দেওয়া হয়"। বর্গক্ষেত্র শর্তের কারণে, এমএসই এমএই এর চেয়ে বেশি বিদেশীদের কাছে সংবেদনশীল।

যদি আমরা দেখতে পাই যে আমাদের ডেটাসেটের আউটলিয়াররা ডেটা বিশ্লেষণের জন্য গুরুত্বপূর্ণ নয় তবে আমরা এমএসইর আগে এমএইতে যেতে পারি কারণ অবশিষ্টাংশগুলিকে স্কোয়ারিং করা বহিরাগতদের অবশিষ্টাংশগুলিকে অতিরঞ্জিত করে না। আসুন এমএই সন্ধান করুন:

আমাদের পরিমাপের পরিবর্তনশীলটি 3.6153 প্রদান করে। আমাদের এমএই তুলনামূলকভাবে ছোট, 0 থেকে 100 মূল্যায়ন পরিসর দেওয়া, সুতরাং আমাদের এমএই বলে যে আমাদের মডেলটি তার পূর্বাভাসের ক্ষেত্রে মোটামুটি নির্ভুল।

মোটামুটি পার্সেন্টেজ ত্রুটি (এমএপিই)

চূড়ান্ত রিগ্রেশন রেটিং মেট্রিক যা আমরা বিবেচনা করি তা হ'ল গড় পরম শতাংশের ত্রুটি (এমএপিই)।

উৎস

এমএপিই শতাংশ হিসাবে ভবিষ্যদ্বাণীপূর্ণ মডেলগুলির যথার্থতা নির্দেশ করে। এমএই এবং এমএপিই সূত্রে মিলটি নোট করুন। এমএই এর মতো এমএপিই বহিরাগতদের দ্বারা খুব বেশি প্রভাবিত হয় না। তবে, সাবধানতার সাথে ম্যাপ ব্যবহার করুন কারণ

  • এমএপিই ত্রুটিগুলি শূন্য দ্বারা ভাগ করে দেয় (সমষ্টিগুলিতে ডোনমিনেটর দেখুন);
  • প্রকৃত মান খুব কম হলে মানচিত্রটি খুব বড় আকারে পেতে পারে (সংক্ষেপে বিভাগীয় ক্রিয়াকলাপটিও দেখুন)।
  • ম্যাপটি এমন পূর্বাভাসগুলির লক্ষ্য যা পর্যবেক্ষণকৃত মানগুলির চেয়ে ছোট।

আপনি আমাদের মডেলটির জন্য মানচিত্রটি এখানে পেতে পারেন:

আমাদের এমএপিই ফাংশন নিম্নলিখিত শতাংশ প্রদান করে: 8.458%। আমাদের পূর্বাভাস গড়ে 8.5% দ্বারা "বন্ধ"।

এআইসি এবং বিআইসি

এআইসি (আকাইকে তথ্য মানদণ্ড) এবং বিআইসি (বায়সিয়ান ইনফরমেশন মানদণ্ড) হ'ল আপনার রিগ্রেশন মডেলগুলি মূল্যায়ন করার জন্য এবং ভবিষ্যদ্বাণীকারীদের সেরা উপসেট নির্ধারণের জন্য উদ্দেশ্য পদ্ধতি (কোন মডেলটি আরও ভাল ফিট করে)।

আপনি আপনার মডেলটিতে পরামিতিগুলি যুক্ত করার সাথে এটি সর্বদা কিছুটা ভাল ফিট করে। তবে তারপরে আপনি প্রকৃত অন্তর্নিহিত প্যাটার্ন সম্পর্কে তথ্য হারানোর ঝুঁকিটি চালান। সুতরাং, পরামিতিগুলির সংখ্যা এবং আপনার মডেলটিকে বিবেচনায় নেওয়ার ত্রুটির পরিমাণের মধ্যে একটি বাণিজ্য রয়েছে। এআইসি এবং বিআইসি মডেলদের অতিরিক্ত ফিট না করে ভবিষ্যদ্বাণী করা ভেরিয়েবলের অতিরিক্ত পরিবর্তনের জন্য মডেলদের দক্ষতার মূল্যায়ন করে।

এআইসি

এআইসি আপনাকে আপনার মডেলগুলির তথ্যের ক্ষয়টি অনুমান করার অনুমতি দেয় যাতে আপনি কোন মডেলগুলি সবচেয়ে ভাল কাজ করে তা তুলনা করতে এবং ভবিষ্যদ্বাণীকের আরও উপযুক্ত উপসেটটি চয়ন করতে পারেন। বিশেষত, এআইসি মান ডেটাটির প্রকৃত সম্ভাব্যতা ফাংশন এবং আপনার মডেলের লাগানো সম্ভাব্যতা ফাংশনের মধ্যে আপেক্ষিক দূরত্ব বিবেচনা করে। এই দূরত্বটি যত কম হবে, মডেলটি আপনার ডেটার প্রকৃত উপস্থাপনার কাছাকাছি। AIC এই সূত্র দ্বারা চিহ্নিত করা হয়েছে:

এন-নম্বর পর্যবেক্ষণ, কে-নম্বর পরামিতি মেলে + 1

যদি আমরা এআইসি পদ্ধতি ব্যবহার করে দুটি মডেলের ফিটিংয়ের তুলনা করি, তবে নিম্ন এআইসির সাথে মডেলটি আরও উপযুক্ত।

এর আগে ব্যবহৃত দুটি আমাদের একাধিক রিগ্রেশন মডেলের AIC মানগুলি সন্ধান করি। একটিতে তিনটি ভবিষ্যদ্বাণী রয়েছে এবং অন্যটির চারটি রয়েছে। প্রথমে আমরা সূত্রটি সন্নিবেশ করানোর মানগুলি সংজ্ঞায়িত করি এবং তারপরে আমরা সূত্রটি চালাব:

এটি নিম্নলিখিত আউটপুট দেয়:

  • তিনটি ভবিষ্যদ্বাণীযুক্ত মডেলের এআইসি: 60.51438447233831
  • চারটি ভবিষ্যদ্বাণীযুক্ত মডেলের AIC: 62.31365180026097

যেমনটি আমরা দেখতে পাচ্ছি, তিনটি ভবিষ্যদ্বাণীযুক্ত মডেলটির এআইসির মান কম এবং সুতরাং চারটি ভবিষ্যদ্বাণীকারী (তবে এই উদাহরণে খুব বেশি নয়) এর চেয়ে মডেলের চেয়ে ভাল ফিট করে।

বিআইসি

বিআইসি এআইসির অনুরূপ তবে এটি যখন আরও বেশি পরামিতি যুক্ত করার জন্য আপনার মডেলটিকে শাস্তি দেওয়ার ক্ষেত্রে আসে তখন আরও কঠোর। এটি এই সূত্র দ্বারা চিহ্নিত করা হয়েছে:

এন-নম্বর পর্যবেক্ষণ, কে-নম্বর পরামিতি মেলে + 1

যদি আমরা বিআইসি পদ্ধতি ব্যবহার করে দুটি মডেলের ফিটকে তুলনা করি, তবে কম বিআইসি মানযুক্ত মডেলের এআইসি পদ্ধতির অনুরূপ আরও ভাল ফিট রয়েছে।

আসুন আমরা কেবলমাত্র ব্যবহৃত দুটি একই মডেলের জন্য বিআইসি মানগুলি সন্ধান করি। এখানে কেবলমাত্র পার্থক্য হল পেনাল্টি যার মাধ্যমে আমরা পরামিতিগুলির সংখ্যাকে গুণ করি:

এটি নিম্নলিখিত আউটপুট দেয়:

  • তিনটি ভবিষ্যদ্বাণীযুক্ত মডেলের বিআইসি: 63.60473936129743
  • চারটি ভবিষ্যদ্বাণীযুক্ত মডেলের বিআইসি: 66.17659541145987

আমরা এখানে যা দেখতে পাই তা থেকে তিনটি ভবিষ্যদ্বাণীকারী মডেলটির বিআইসির মান কম থাকে এবং তাই চারটি ভবিষ্যদ্বাণীকারী মডেলের চেয়ে ভাল ফিট করে fits যেহেতু বিআইসির জরিমানাটি এইআইসি জরিমানার চেয়ে কঠোর, তাই বিআইসি পদ্ধতির মানগুলি সংশ্লিষ্ট মডেলগুলির জন্য এআইসি পদ্ধতির চেয়ে বেশি।

বিভিন্ন জরিমানার কারণে, এআইসি বিআইসির চেয়ে বেশি পরামিতি সহ একটি মডেল চয়ন করতে পারে। আপনি এআইসি এবং বিআইসি একসাথে ব্যবহার করুন এবং ফলাফলের উভয় সেটের ভিত্তিতে আপনার মডেলগুলি সম্পর্কে সিদ্ধান্ত নেওয়ার পরামর্শ দেওয়া হচ্ছে। এই ক্ষেত্রে, এআইসি এবং বিআইসি সম্মত হয়েছিল এবং একই মডেলগুলির পক্ষে পছন্দ করে।

কী শব্দভাণ্ডার

সংক্ষেপে, আমরা আলোচনা

  • র: লিনিয়ার রিগ্রেশন মডেলটি কতটা দৃ strongly়তার সাথে প্রতিক্রিয়ার পূর্বাভাস করেছে তার একটি সূচক
  • সমন্বিত আর: মডেলটিতে পরামিতিগুলির সংখ্যার জন্য সামঞ্জস্য হওয়ায় একাধিক লিনিয়ার রিগ্রেশন মডেল নির্ভরশীল ভেরিয়েবলের পরিবর্তনের জন্য কতটা হিসাব করে তা সূচক
  • এমএসই (মানে স্কোয়ার ত্রুটি): একটি স্কোরিং মেট্রিক যা বহিরাগতদের মারাত্মকভাবে শাস্তি দেয়; সম্ভবত যখন প্রথম ভুল আপনি গণনা করেন এবং ব্যবহার করেন যখন আউটলিয়াররা ডেটা সেটের আসল ঘটনা
  • আরএমএসই (রুট গড় স্কোয়ার ত্রুটি): এমএসই এর বর্গমূল; রেসপন্স ভেরিয়েবলের মতো একই ইউনিট রয়েছে, সুতরাং আরএমএসই এমএসইয়ের চেয়ে বেশি "ব্যাখ্যাযোগ্য" হতে পারে
  • এমএই (মানে ত্রুটিযুক্ত ত্রুটি): ত্রুটিগুলি পরিমাপে বহিরাগতদের গুরুত্ব হ্রাস করতে ব্যবহৃত একটি স্কোরিং মেট্রিক। যখন আউটলিয়াররা ডেটা সেটের বাস্তব ঘটনা নয় Used
  • মানচিত্র (গড় পার্সেন্টেজ ত্রুটির অর্থ): শতাংশে রিগ্রেশন মডেলের যথার্থতার একটি পরিমাপ। প্রতিক্রিয়া ভেরিয়েবল ছোট মানগুলি গ্রহণ করে এটি রান-টাইম ত্রুটি বা অস্বাভাবিক আকারে বড় মানগুলির কারণ হতে পারে
  • এআইসির (আকাইকে তথ্য মানদণ্ড): বিভিন্ন মডেল হারিয়ে যাওয়া তথ্যগুলির পরিমাণের একটি মূল্যায়ন এবং এটি প্যারামিটারগুলি বাড়ানোর পক্ষে ক্ষতিকর। আপনার ডেটার আকার নির্বিশেষে, সর্বদা এমন সুযোগ থাকে যে আপনি খুব বেশি মডেল বাছাই করবেন। বিআইসির সাথে একযোগে সেরা।
  • বিআইসি (বায়েশিয়ান ইনফরমেশন মাপদণ্ড): এআইসির মতো, তবে আরও বেশি শাস্তি দেওয়া হয়েছে। আপনার ডেটার আকার নির্বিশেষে, সর্বদা এমন সুযোগ থাকে যে আপনি খুব ছোট একটি মডেল বেছে নেবেন। এআইসির সাথে একযোগে সেরা।

উপসংহার

এই টিউটোরিয়ালটি দেখায় যে কীভাবে পাইথন এবং এই মডেলগুলি এবং তাদের ত্রুটিগুলি মূল্যায়নের জন্য ব্যবহৃত পদ্ধতিগুলি সহ একাধিক লিনিয়ার রিগ্রেশন মডেলগুলি প্রয়োগ করা হয়।

আপনি যদি নিজের ডেটা সেট নিয়ে কাজ করছেন, তবে আপনার রিগ্রেশন মডেল এবং ত্রুটিগুলি মূল্যায়নের জন্য আপনি এই পদ্ধতির একটি ব্যবহার করতে পারেন। তবে এর মধ্যে বেশ কয়েকটি ব্যবহার করা আপনার ফলাফলের পক্ষে এবং আপনার ফলাফলগুলির মধ্যে কী মিল রয়েছে বা কোনটি আপনার মডেলকে সর্বোত্তমভাবে উপাত্ত উপস্থাপন করে তা সিদ্ধান্ত নিতে কীভাবে পৃথক হতে পারে তা আপনার আগ্রহের মধ্যে থাকতে পারে।

এতক্ষণে আপনার নিজের লিনিয়ার রিগ্রেশন মডেলগুলি বাস্তবায়নের সাথে আরও পরিচিত হওয়া উচিত এবং আলোচিত সমস্ত রিগ্রেশন মেট্রিকের মধ্যে মিল এবং পার্থক্যগুলি আরও ভালভাবে বুঝতে হবে।