এআই এখনও শক্তিশালী হস্তাক্ষর অঙ্কগুলি (এবং কীভাবে এটি ঠিক করবেন) সনাক্ত করতে ব্যর্থ
স্ব-চালিকা গাড়ি থেকে বিশ্ব জলবায়ু পর্যন্ত সমস্ত কিছু সমাধান করার জন্য গভীর শিক্ষার প্রশংসা করা হয়েছে been এবং তবুও, গভীর স্নায়ুবহুল নেটওয়ার্কগুলি (গভীর শিক্ষার workhorse) এমনকি সবচেয়ে জাগতিক কাজগুলি সন্তুষ্টিজনকভাবে সমাধান করতে পারে না: শক্তিশালী হাতে লেখা অঙ্কের স্বীকৃতি। নিম্নলিখিত উদাহরণগুলি বিবেচনা করুন:

প্রতিটি অঙ্কের নীচের সংখ্যাটি নেটওয়ার্কের পূর্বাভাসকে নির্দেশ করে। এই সমস্ত উদাহরণ সঠিকভাবে শ্রেণিবদ্ধ করা হয়। তো সমস্যাটা কী? নিম্নলিখিত ছবিগুলি দেখুন:

আমরা কেবল চিত্রগুলি সামান্যই সংশোধন করেছি, তবে এখন নিউরাল নেটওয়ার্কগুলি সেগুলি সমস্তগুলিকে ভুল করে। এই জাতীয় "বিরোধী" ইনপুট বহু বছর ধরেই পরিচিত। এগুলি মূলত প্রতিটি গভীর শেখার অ্যাপ্লিকেশনকে অবজেক্ট রিকগনিশন, সিমেটিক ইমেজ বিভাজন, স্পিচ সনাক্তকরণ থেকে স্প্যাম ফিল্টারিং পর্যন্ত প্রভাবিত করে। প্রায়শই প্রতিটি বাস্তবায়িত নিউরাল নেটওয়ার্ক প্রভাবিত হয় এবং আক্রমণ করা যেতে পারে (উদাঃ সিরি বা অ্যামাজন ইকো)।
তবে এটি আরও খারাপ হয়: নীচের ছবিগুলি দেখুন:

আপনি কি কোনও হাতে লেখা সংখ্যার ইঙ্গিতটি চিনতে পারবেন? না? নিউরাল নেটওয়ার্ক অত্যন্ত নিশ্চিত যে এগুলি সমস্ত শূন্য। এই তথাকথিত অচেনা ইমেজগুলি কেবল আজকের নিউরাল নেটওয়ার্কগুলির আরও একটি সমস্যা পরিষ্কার করেছে: ইনপুটগুলি "স্বাভাবিক" ডেটা থেকে খুব বেশি দূরে থাকলে (এই ক্ষেত্রে সংখ্যার পরিবর্তে শব্দ করা) They
এই দৃust়তা সমস্যা গভীর শিক্ষা গ্রহণের ক্ষেত্রে অন্যতম গুরুত্বপূর্ণ বাধা হিসাবে স্বীকৃতি পেয়েছে। কেবল সুরক্ষার কারণেই নয়, কারণ এই ত্রুটিগুলি দেখায় যে নিউরাল নেটওয়ার্কগুলি আসলে কীভাবে কাজ করে এবং শ্রেণীবদ্ধের জন্য কোন চিত্র বৈশিষ্ট্যগুলি ব্যবহার করে সে সম্পর্কে আমাদের কোনও ধারণা নেই। এই সমস্যাটি সমাধানের চেষ্টা করা কাজের সংখ্যা গত দুই বছরে দ্রুত বৃদ্ধি পেয়েছে, তবে এখনও পর্যন্ত সাফল্য হয়নি। প্রকৃতপক্ষে, আমরা উপরের হস্তাক্ষর অঙ্কগুলি শ্রেণীবদ্ধ করার জন্য ব্যবহৃত নিউরাল নেটওয়ার্কটি বর্তমানে সবচেয়ে শক্তিশালী মডেল হিসাবে বিবেচিত হয় (মাদ্রি এট আল।) এই সত্যটি দেখায় যে আমরা দৃust় স্বীকৃতি মডেলগুলি থেকে এমনকি কতটা সহজ হস্তাক্ষর অঙ্কের জন্য from
আমাদের সম্প্রতি প্রকাশিত নিবন্ধে, আমরা দৃust়ভাবে চিত্রের শ্রেণিবদ্ধকরণের জন্য একটি নতুন ধারণা প্রবর্তন করি। ধারণাটি খুব সহজ: যদি কোনও চিত্রকে সাত হিসাবে শ্রেণিবদ্ধ করা হয় তবে এর মোটামুটি দুটি লাইন থাকা উচিত - একটি সংক্ষিপ্ত, আরও দীর্ঘ - এক প্রান্তে সেই স্পর্শ। এটি হ'ল ডিজিটগুলি নিয়ে চিন্তাভাবনার একটি উপায় যা মানুষের কাছে মোটামুটি প্রাকৃতিক এবং আমাদের প্রচুর শব্দ এবং হস্তক্ষেপের পরেও সহজেই সংকেত (লাইনগুলি) সনাক্ত করতে দেয়। এই জাতীয় মডেলটি সহ, উপরে তালিকাভুক্ত বিরোধী উদাহরণগুলি সঠিক শ্রেণিতে স্থাপন করা সহজ হওয়া উচিত। জেনারেটর ডিজিটের মডেল (উদাঃ জিরোস) শেখা মোটামুটি সহজ (একটি ভেরিয়েবল অটো-এনকোডার সহ) এবং সংক্ষেপে এইভাবে কাজ করে: আমরা বিঘ্নিত ভেরিয়েবলের একটি সুপ্ত স্থান ধরে নিই (যা উদাহরণস্বরূপ, অঙ্কটির ঘনত্ব বা প্রবণতা সনাক্ত করে) করতে পারে) এবং ডেটা থেকে শিখে নেওয়া হয়) এবং নিউরাল নেটওয়ার্ক ব্যবহার করে একটি চিত্র তৈরি করে। তারপরে আমরা হস্তাক্ষর শূন্যগুলির উদাহরণ দেখি এবং অনুরূপ শূন্য উত্পন্ন করতে নেটওয়ার্ককে প্রশিক্ষণ দিই। প্রশিক্ষণ শেষে, নেটওয়ার্ক হস্তাক্ষর জিরোগুলির প্রাকৃতিক বৈচিত্রগুলি জানতে পারে:

আমরা প্রতিটি ডিজিটের জন্য এমন একটি উত্পাদনশীল মডেল শিখি। যখন কোনও নতুন ইনপুট গৃহীত হয়, তখন আমরা পরীক্ষা করি যে কোন ডিজিটের মডেলটি নতুন ইনপুটটিকে সর্বোত্তমভাবে আনতে পারে। এই কৌশলটি সাধারণত সংশ্লেষণ দ্বারা বিশ্লেষণ বলা হয় কারণ আমরা চিত্রটির সামগ্রীটি সেই মডেল অনুসারে বিশ্লেষণ করি যা এটি সর্বোত্তমভাবে সংশ্লেষ করে। অন্যদিকে স্ট্যান্ডার্ড ফিডফোর্ড নেটওয়ার্কগুলিতে ইনপুট চিত্রটি আসলে প্রাপ্ত উত্পন্ন শ্রেণীর সাথে সাদৃশ্য রয়েছে কিনা তা যাচাই করার জন্য প্রতিক্রিয়া ব্যবস্থা নেই:

এটি হ'ল মূল পার্থক্য: ফিডফোর্ড নেটওয়ার্কগুলির পূর্বাভাসগুলি যাচাই করার কোনও উপায় নেই। আপনি তাদের বিশ্বাস করতে হবে। অন্যদিকে আমাদের বিশ্লেষণ দ্বারা সংশ্লেষের মডেল, কোনও উপসংহার টানানোর আগে কিছু চিত্রের বৈশিষ্ট্যগুলি ইনপুটে আসলে উপস্থিত কিনা তা পরীক্ষা করে।
এই পদ্ধতিটি কাজ করার জন্য আমাদের একটি নিখুঁত জেনারেটাল মডেলের প্রয়োজন নেই। আমাদের হাতে লেখা সংখ্যার মডেল অবশ্যই নিখুঁত নয়: অস্পষ্ট প্রান্তটি দেখুন। তবুও, আমাদের মডেল উচ্চ নির্ভুলতার (99.0%) সহ হস্তাক্ষর অঙ্কগুলি শ্রেণীবদ্ধ করতে পারে এবং এর সিদ্ধান্তগুলি মানুষের পক্ষে খুব অর্থবহ। উদাহরণস্বরূপ, মডেল সর্বদা শব্দ শব্দের প্রতি নিম্ন স্তরের আত্মবিশ্বাসের সংকেত দেয় কারণ তারা আগে দেখানো অঙ্কগুলির মতো দেখায় না। যে চিত্রগুলি শব্দের নিকটে আসে এবং বিশ্লেষণ-দ্বারা-সংশ্লেষণের মডেলটি এখনও উচ্চ মাত্রার নির্দিষ্টতা সহ অঙ্ক হিসাবে শ্রেণিবদ্ধ করে তোলে তা মানুষের জন্য খুব দরকারী:

মাদ্রি এট আল দ্বারা শিল্পের বর্তমান অবস্থায়। আমরা দেখতে পেয়েছি যে পরিষ্কার অঙ্কগুলি থেকে ন্যূনতম হস্তক্ষেপটি প্রায়শই মডেলের শ্রেণিবিন্যাসকে ট্রেন করার জন্য যথেষ্ট। আপনি যদি আমাদের বিশ্লেষণ দ্বারা সংশ্লেষণের মডেলটির জন্য একই কাজ করেন তবে ফলাফলগুলি মারাত্মকভাবে পৃথক:

দ্রষ্টব্য যে অস্থিরতা মানুষের কাছে প্রচুর অর্থবোধ করে এবং কোন শ্রেণিতে ছবিটি রাখা উচিত তা সিদ্ধান্ত নেওয়া কখনও কখনও কঠিন। আমরা একটি দৃ class় শ্রেণিবদ্ধকরণ মডেলের জন্য ঠিক এটি প্রত্যাশা করি।
আমাদের মডেলের আরও কয়েকটি উল্লেখযোগ্য বৈশিষ্ট্য রয়েছে। উদাহরণস্বরূপ, বিশ্লেষণ-দ্বারা-সংশ্লেষের মডেলগুলির সিদ্ধান্তগুলি ব্যাখ্যা করা আরও সহজ কারণ যে কেউ সরাসরি দেখতে পারে কোন বৈশিষ্ট্যগুলি নির্দিষ্ট সিদ্ধান্তের দিকে মডেলকে প্রভাবিত করে। তদতিরিক্ত, আমরা এর দৃust়তার কিছু নিম্ন সীমাও বিয়োগ করতে পারি।
বিশ্লেষণ-দ্বারা-সংশ্লেষের মডেলটি এখনও মানুষের উপলব্ধির সাথে পুরোপুরি সামঞ্জস্যপূর্ণ নয় এবং এখনও অনেক দীর্ঘ পথ যেতে হবে (আমাদের পাণ্ডুলিপিতে সম্পূর্ণ বিশ্লেষণ দেখুন)। তবে আমরা বিশ্বাস করি যে এই ফলাফলগুলি অত্যন্ত উত্সাহজনক এবং আমরা আশা করি যে আমাদের কাজটি শ্রেণিবিন্যাসের মডেলগুলির একটি নতুন শ্রেণির জন্য নির্ভুল, দৃust় এবং ব্যাখ্যাযোগ্য হবে p এই নতুন মডেলগুলি সম্পর্কে আমাদের এখনও অনেক কিছু শেখার আছে, কীভাবে যুক্তিটিকে আরও দক্ষ করে তোলা এবং আরও জটিল ডেটা সেটগুলিতে স্কেল করা (সিআইএফএআর বা ইমেজনেটের মতো) কীভাবে করা যায় সে সম্পর্কে। আমরা এই প্রশ্নের উত্তর দিতে কঠোর পরিশ্রম করছি এবং ভবিষ্যতে আপনার সাথে আরও ফলাফল ভাগ করে নেওয়ার প্রত্যাশায় রয়েছি।
এমএনআইএসটিতে প্রথম স্থিতিস্থাপক নিউরাল নেটওয়ার্কের পথে
লুকাস শোট, জোনাস রাউবার, ম্যাথিয়াস বেথেজ এবং উইল্যান্ড ব্রেন্ডেল আরএক্সিভ: 1805.09190