এআই এখনও শক্তিশালী হস্তাক্ষর অঙ্কগুলি (এবং কীভাবে এটি ঠিক করবেন) সনাক্ত করতে ব্যর্থ

স্ব-চালিকা গাড়ি থেকে বিশ্ব জলবায়ু পর্যন্ত সমস্ত কিছু সমাধান করার জন্য গভীর শিক্ষার প্রশংসা করা হয়েছে been এবং তবুও, গভীর স্নায়ুবহুল নেটওয়ার্কগুলি (গভীর শিক্ষার workhorse) এমনকি সবচেয়ে জাগতিক কাজগুলি সন্তুষ্টিজনকভাবে সমাধান করতে পারে না: শক্তিশালী হাতে লেখা অঙ্কের স্বীকৃতি। নিম্নলিখিত উদাহরণগুলি বিবেচনা করুন:

প্রতিটি অঙ্কের নীচের সংখ্যাটি নেটওয়ার্কের পূর্বাভাসকে নির্দেশ করে। এই সমস্ত উদাহরণ সঠিকভাবে শ্রেণিবদ্ধ করা হয়। তো সমস্যাটা কী? নিম্নলিখিত ছবিগুলি দেখুন:

... ছোট পরিবর্তনগুলি নেটওয়ার্কের সিদ্ধান্তগুলি পুরোপুরি লেনদেন করতে পারে।

আমরা কেবল চিত্রগুলি সামান্যই সংশোধন করেছি, তবে এখন নিউরাল নেটওয়ার্কগুলি সেগুলি সমস্তগুলিকে ভুল করে। এই জাতীয় "বিরোধী" ইনপুট বহু বছর ধরেই পরিচিত। এগুলি মূলত প্রতিটি গভীর শেখার অ্যাপ্লিকেশনকে অবজেক্ট রিকগনিশন, সিমেটিক ইমেজ বিভাজন, স্পিচ সনাক্তকরণ থেকে স্প্যাম ফিল্টারিং পর্যন্ত প্রভাবিত করে। প্রায়শই প্রতিটি বাস্তবায়িত নিউরাল নেটওয়ার্ক প্রভাবিত হয় এবং আক্রমণ করা যেতে পারে (উদাঃ সিরি বা অ্যামাজন ইকো)।

তবে এটি আরও খারাপ হয়: নীচের ছবিগুলি দেখুন:

একটি নিউরাল নেটওয়ার্ক এই চিত্রগুলিকে উচ্চ মাত্রার নিশ্চিততার সাথে

আপনি কি কোনও হাতে লেখা সংখ্যার ইঙ্গিতটি চিনতে পারবেন? না? নিউরাল নেটওয়ার্ক অত্যন্ত নিশ্চিত যে এগুলি সমস্ত শূন্য। এই তথাকথিত অচেনা ইমেজগুলি কেবল আজকের নিউরাল নেটওয়ার্কগুলির আরও একটি সমস্যা পরিষ্কার করেছে: ইনপুটগুলি "স্বাভাবিক" ডেটা থেকে খুব বেশি দূরে থাকলে (এই ক্ষেত্রে সংখ্যার পরিবর্তে শব্দ করা) They

এই দৃust়তা সমস্যা গভীর শিক্ষা গ্রহণের ক্ষেত্রে অন্যতম গুরুত্বপূর্ণ বাধা হিসাবে স্বীকৃতি পেয়েছে। কেবল সুরক্ষার কারণেই নয়, কারণ এই ত্রুটিগুলি দেখায় যে নিউরাল নেটওয়ার্কগুলি আসলে কীভাবে কাজ করে এবং শ্রেণীবদ্ধের জন্য কোন চিত্র বৈশিষ্ট্যগুলি ব্যবহার করে সে সম্পর্কে আমাদের কোনও ধারণা নেই। এই সমস্যাটি সমাধানের চেষ্টা করা কাজের সংখ্যা গত দুই বছরে দ্রুত বৃদ্ধি পেয়েছে, তবে এখনও পর্যন্ত সাফল্য হয়নি। প্রকৃতপক্ষে, আমরা উপরের হস্তাক্ষর অঙ্কগুলি শ্রেণীবদ্ধ করার জন্য ব্যবহৃত নিউরাল নেটওয়ার্কটি বর্তমানে সবচেয়ে শক্তিশালী মডেল হিসাবে বিবেচিত হয় (মাদ্রি এট আল।) এই সত্যটি দেখায় যে আমরা দৃust় স্বীকৃতি মডেলগুলি থেকে এমনকি কতটা সহজ হস্তাক্ষর অঙ্কের জন্য from

আমাদের সম্প্রতি প্রকাশিত নিবন্ধে, আমরা দৃust়ভাবে চিত্রের শ্রেণিবদ্ধকরণের জন্য একটি নতুন ধারণা প্রবর্তন করি। ধারণাটি খুব সহজ: যদি কোনও চিত্রকে সাত হিসাবে শ্রেণিবদ্ধ করা হয় তবে এর মোটামুটি দুটি লাইন থাকা উচিত - একটি সংক্ষিপ্ত, আরও দীর্ঘ - এক প্রান্তে সেই স্পর্শ। এটি হ'ল ডিজিটগুলি নিয়ে চিন্তাভাবনার একটি উপায় যা মানুষের কাছে মোটামুটি প্রাকৃতিক এবং আমাদের প্রচুর শব্দ এবং হস্তক্ষেপের পরেও সহজেই সংকেত (লাইনগুলি) সনাক্ত করতে দেয়। এই জাতীয় মডেলটি সহ, উপরে তালিকাভুক্ত বিরোধী উদাহরণগুলি সঠিক শ্রেণিতে স্থাপন করা সহজ হওয়া উচিত। জেনারেটর ডিজিটের মডেল (উদাঃ জিরোস) শেখা মোটামুটি সহজ (একটি ভেরিয়েবল অটো-এনকোডার সহ) এবং সংক্ষেপে এইভাবে কাজ করে: আমরা বিঘ্নিত ভেরিয়েবলের একটি সুপ্ত স্থান ধরে নিই (যা উদাহরণস্বরূপ, অঙ্কটির ঘনত্ব বা প্রবণতা সনাক্ত করে) করতে পারে) এবং ডেটা থেকে শিখে নেওয়া হয়) এবং নিউরাল নেটওয়ার্ক ব্যবহার করে একটি চিত্র তৈরি করে। তারপরে আমরা হস্তাক্ষর শূন্যগুলির উদাহরণ দেখি এবং অনুরূপ শূন্য উত্পন্ন করতে নেটওয়ার্ককে প্রশিক্ষণ দিই। প্রশিক্ষণ শেষে, নেটওয়ার্ক হস্তাক্ষর জিরোগুলির প্রাকৃতিক বৈচিত্রগুলি জানতে পারে:

জিরোসের একটি জেনারেটরি মডেল হস্তাক্ষর অঙ্কগুলির ডানদিকে (ডান দিকের) বিভিন্ন প্রকারভেদ শিখতে পারে।

আমরা প্রতিটি ডিজিটের জন্য এমন একটি উত্পাদনশীল মডেল শিখি। যখন কোনও নতুন ইনপুট গৃহীত হয়, তখন আমরা পরীক্ষা করি যে কোন ডিজিটের মডেলটি নতুন ইনপুটটিকে সর্বোত্তমভাবে আনতে পারে। এই কৌশলটি সাধারণত সংশ্লেষণ দ্বারা বিশ্লেষণ বলা হয় কারণ আমরা চিত্রটির সামগ্রীটি সেই মডেল অনুসারে বিশ্লেষণ করি যা এটি সর্বোত্তমভাবে সংশ্লেষ করে। অন্যদিকে স্ট্যান্ডার্ড ফিডফোর্ড নেটওয়ার্কগুলিতে ইনপুট চিত্রটি আসলে প্রাপ্ত উত্পন্ন শ্রেণীর সাথে সাদৃশ্য রয়েছে কিনা তা যাচাই করার জন্য প্রতিক্রিয়া ব্যবস্থা নেই:

ফিডফোর্ড নেটওয়ার্কগুলি চিত্র থেকে ক্লাসে সরাসরি যায় এবং শ্রেণিবিন্যাসটি অর্থবোধ করে তা যাচাই করতে পারে না। আমাদের বিশ্লেষণ অনুসারে সংশ্লেষের মডেল পরীক্ষা করে যে কোন চিত্র বৈশিষ্ট্য উপস্থিত রয়েছে এবং কোন শ্রেণিটি সবচেয়ে বোধগম্য তা শ্রেণিবদ্ধ করে।

এটি হ'ল মূল পার্থক্য: ফিডফোর্ড নেটওয়ার্কগুলির পূর্বাভাসগুলি যাচাই করার কোনও উপায় নেই। আপনি তাদের বিশ্বাস করতে হবে। অন্যদিকে আমাদের বিশ্লেষণ দ্বারা সংশ্লেষের মডেল, কোনও উপসংহার টানানোর আগে কিছু চিত্রের বৈশিষ্ট্যগুলি ইনপুটে আসলে উপস্থিত কিনা তা পরীক্ষা করে।

এই পদ্ধতিটি কাজ করার জন্য আমাদের একটি নিখুঁত জেনারেটাল মডেলের প্রয়োজন নেই। আমাদের হাতে লেখা সংখ্যার মডেল অবশ্যই নিখুঁত নয়: অস্পষ্ট প্রান্তটি দেখুন। তবুও, আমাদের মডেল উচ্চ নির্ভুলতার (99.0%) সহ হস্তাক্ষর অঙ্কগুলি শ্রেণীবদ্ধ করতে পারে এবং এর সিদ্ধান্তগুলি মানুষের পক্ষে খুব অর্থবহ। উদাহরণস্বরূপ, মডেল সর্বদা শব্দ শব্দের প্রতি নিম্ন স্তরের আত্মবিশ্বাসের সংকেত দেয় কারণ তারা আগে দেখানো অঙ্কগুলির মতো দেখায় না। যে চিত্রগুলি শব্দের নিকটে আসে এবং বিশ্লেষণ-দ্বারা-সংশ্লেষণের মডেলটি এখনও উচ্চ মাত্রার নির্দিষ্টতা সহ অঙ্ক হিসাবে শ্রেণিবদ্ধ করে তোলে তা মানুষের জন্য খুব দরকারী:

আমরা অবিশ্বাস্য চিত্রগুলিকে সংশ্লেষিত করার চেষ্টা করেছি যা এখনও আমাদের বিশ্লেষণ-দ্বারা-সংশ্লেষণের মডেল দ্বারা উচ্চতর ডিগ্রি সহ জিরো হিসাবে শ্রেণিবদ্ধ করা হয়েছে। এটি আমাদের সেরা।

মাদ্রি এট আল দ্বারা শিল্পের বর্তমান অবস্থায়। আমরা দেখতে পেয়েছি যে পরিষ্কার অঙ্কগুলি থেকে ন্যূনতম হস্তক্ষেপটি প্রায়শই মডেলের শ্রেণিবিন্যাসকে ট্রেন করার জন্য যথেষ্ট। আপনি যদি আমাদের বিশ্লেষণ দ্বারা সংশ্লেষণের মডেলটির জন্য একই কাজ করেন তবে ফলাফলগুলি মারাত্মকভাবে পৃথক:

সংশ্লেষণের মডেল দ্বারা বিশ্লেষণের উদাহরণগুলির সাথে বিরোধী। আপনি কি ভাবতে পারেন যে আসল সংখ্যাটি কী ছিল?

দ্রষ্টব্য যে অস্থিরতা মানুষের কাছে প্রচুর অর্থবোধ করে এবং কোন শ্রেণিতে ছবিটি রাখা উচিত তা সিদ্ধান্ত নেওয়া কখনও কখনও কঠিন। আমরা একটি দৃ class় শ্রেণিবদ্ধকরণ মডেলের জন্য ঠিক এটি প্রত্যাশা করি।

আমাদের মডেলের আরও কয়েকটি উল্লেখযোগ্য বৈশিষ্ট্য রয়েছে। উদাহরণস্বরূপ, বিশ্লেষণ-দ্বারা-সংশ্লেষের মডেলগুলির সিদ্ধান্তগুলি ব্যাখ্যা করা আরও সহজ কারণ যে কেউ সরাসরি দেখতে পারে কোন বৈশিষ্ট্যগুলি নির্দিষ্ট সিদ্ধান্তের দিকে মডেলকে প্রভাবিত করে। তদতিরিক্ত, আমরা এর দৃust়তার কিছু নিম্ন সীমাও বিয়োগ করতে পারি।

বিশ্লেষণ-দ্বারা-সংশ্লেষের মডেলটি এখনও মানুষের উপলব্ধির সাথে পুরোপুরি সামঞ্জস্যপূর্ণ নয় এবং এখনও অনেক দীর্ঘ পথ যেতে হবে (আমাদের পাণ্ডুলিপিতে সম্পূর্ণ বিশ্লেষণ দেখুন)। তবে আমরা বিশ্বাস করি যে এই ফলাফলগুলি অত্যন্ত উত্সাহজনক এবং আমরা আশা করি যে আমাদের কাজটি শ্রেণিবিন্যাসের মডেলগুলির একটি নতুন শ্রেণির জন্য নির্ভুল, দৃust় এবং ব্যাখ্যাযোগ্য হবে p এই নতুন মডেলগুলি সম্পর্কে আমাদের এখনও অনেক কিছু শেখার আছে, কীভাবে যুক্তিটিকে আরও দক্ষ করে তোলা এবং আরও জটিল ডেটা সেটগুলিতে স্কেল করা (সিআইএফএআর বা ইমেজনেটের মতো) কীভাবে করা যায় সে সম্পর্কে। আমরা এই প্রশ্নের উত্তর দিতে কঠোর পরিশ্রম করছি এবং ভবিষ্যতে আপনার সাথে আরও ফলাফল ভাগ করে নেওয়ার প্রত্যাশায় রয়েছি।

এমএনআইএসটিতে প্রথম স্থিতিস্থাপক নিউরাল নেটওয়ার্কের পথে

লুকাস শোট, জোনাস রাউবার, ম্যাথিয়াস বেথেজ এবং উইল্যান্ড ব্রেন্ডেল আরএক্সিভ: 1805.09190