আপনি জাল ভিডিওগুলি (ডিপফেক) কতটা গভীর শিখেন এবং কীভাবে আপনি সেগুলি সনাক্ত করবেন?

সেলিব্রিটি পর্ন ছবি বানানো নতুন কিছু নয়। 2017 এর শেষের দিকে, ডিপফেকস নামে একজন রেডডিট ব্যবহারকারী নকল সেলিব্রিটির ভিডিওগুলি বানোয়াট করতে গভীর শিক্ষা ব্যবহার শুরু করেছিলেন। এটি অনলাইনে জাল ভিডিওগুলির এক নতুন তরঙ্গের শুরু। মার্কিন সামরিক বাহিনীর অংশ হিসাবে, DARPA জাল ভিডিও সনাক্তকরণ সম্পর্কিত গবেষণার জন্যও অর্থ সরবরাহ করছে। ডিপফেকসের অনেক আগে ভিডিও তৈরি করতে এআই প্রয়োগ করা শুরু হয়েছিল। ফেস টুফিজ এবং ইউডাব্লিউর "ওবামার সংশ্লেষণ (অডিও থেকে লিপ সিঙ্ক শিখিয়ে দেওয়া)" এমন জাল ভিডিও তৈরি করেছে যা স্পট করা আরও শক্ত। প্রকৃতপক্ষে, তারা এতটাই সত্য যে জর্দান পিল জনসাধারণকে সতর্ক করতে নীচে একটি তৈরি করেছে।

এই নিবন্ধে আমরা ডিপফেকসের ধারণাটি ব্যাখ্যা করি। আমরা কিছু অসুবিধা চিহ্নিত করি এবং জাল ভিডিওগুলি সনাক্ত করার উপায়গুলি ব্যাখ্যা করি। আমরা ওয়াশিংটন বিশ্ববিদ্যালয়ের একটি গবেষণাও তদন্ত করছি যা এমন একটি ভিডিও তৈরি করে যা একটি সম্ভাব্য স্পোফড অডিওতে সিঙ্ক করা যায়।

বেসিক ধারণা

ডিপফেকসের ধারণাটি খুব সহজ। ধরা যাক আমরা ব্যক্তি A এর চেহারা ব্যক্তির বি ভিডিওতে স্থানান্তর করতে চাই Let's

প্রথমত, আমরা উভয় ব্যক্তির জন্য কয়েকশ বা হাজার হাজার চিত্র সংগ্রহ করি। আমরা গভীর শিখন সিএনএন নেটওয়ার্ক ব্যবহার করে এই সমস্ত চিত্রের এনকোড করতে একটি এনকোডার তৈরি করছি। তারপরে আমরা চিত্রটি পুনর্গঠন করতে একটি ডিকোডার ব্যবহার করি। এই অটোরকোডারটি (এনকোডার এবং ডিকোডার) এর দশ লক্ষেরও বেশি পরামিতি রয়েছে তবে সমস্ত চিত্র সংরক্ষণের জন্য এটি খুব কাছে নয়। আসল ইনপুটটি পুনরায় তৈরি করতে এনকোডারকে অবশ্যই সবচেয়ে গুরুত্বপূর্ণ ফাংশনগুলি বের করতে হবে। এটিকে অপরাধের স্কেচ হিসাবে ভাবেন। বৈশিষ্ট্যগুলি হ'ল সাক্ষীর বিবরণ (এনকোডার) এবং একটি যৌগিক ড্রাফটসম্যান (ডিকোডার) সন্দেহভাজনের একটি চিত্র পুনর্গঠন করতে এগুলি ব্যবহার করে।

বৈশিষ্ট্যগুলি ডিকোড করার জন্য আমরা ব্যক্তি এ এবং ব্যক্তি বি এর জন্য পৃথক ডিকোডার ব্যবহার করব Now এই প্রক্রিয়াটি সময় সাপেক্ষ। জিপিইউ গ্রাফিক্স কার্ডের সাথে শালীন ফলাফল পেতে প্রায় 3 দিন সময় লাগে। (দশ কোটিরও বেশি বারবার চিত্র প্রক্রিয়াকরণের পরে)

প্রশিক্ষণের পরে, আমরা একজনের মুখের জন্য অন্য ব্যক্তির মুখের অদলবদল করতে ফ্রেম দ্বারা ভিডিও ফ্রেমটি প্রক্রিয়া করি। মুখের স্বীকৃতি সহ, আমরা ব্যক্তি এ এর ​​মুখটি বের করি এবং এটি এনকোডারকে ফিড করি। তবে, মূল ডিকোডারকে খাওয়ানোর পরিবর্তে, আমরা চিত্রটি পুনর্গঠন করতে ব্যক্তি বি এর ডিকোডার ব্যবহার করি। অর্থাত্ আমরা আসল ভিডিওতে A এর বৈশিষ্ট্যগুলি সহ ব্যক্তি B কে আঁকছি। তারপরে আমরা নতুন তৈরি মুখটিকে মূল চিত্রের সাথে একীভূত করি।

এনকোডারটি স্বজ্ঞাতভাবে ভিউ, ত্বকের রঙ, মুখের ভাব, আলো এবং অন্যান্য তথ্যের কোণটি রেকর্ড করে যা ব্যক্তি এ এর ​​পুনর্গঠনের জন্য গুরুত্বপূর্ণ A. আমরা যখন চিত্রটি পুনর্গঠন করতে দ্বিতীয় এনকোডার ব্যবহার করি, আমরা ব্যক্তি বি আঁকছি, তবে নীচের চিত্রটিতে, পুনর্গঠিত চিত্রটিতে লক্ষ্য ভিডিওর মুখের ভাবটি বজায় রেখে ট্রাম্পের মুখের চরিত্র রয়েছে।

সূত্র: ডারফেকস এবং উইকিপিডিয়া

চিত্র

প্রশিক্ষণের আগে আমাদের দু'জনের জন্য হাজার হাজার চিত্র প্রস্তুত করা দরকার। আমরা একটি শর্টকাট তৈরি করতে পারি এবং তাদের ভিডিওগুলি থেকে মুখের চিত্রগুলি সরাতে মুখের স্বীকৃতি লাইব্রেরি ব্যবহার করতে পারি। আপনার মুখের চিত্রগুলির গুণমান উন্নত করতে প্রচুর সময় ব্যয় করুন। এটি আপনার নীচের লাইনে একটি বিশাল প্রভাব ফেলবে।

  • একাধিক ব্যক্তি সমন্বিত যে কোনও ছবির ফ্রেম সরিয়ে ফেলুন।
  • আপনার কাছে ভিডিও ফুটেজ সমৃদ্ধ রয়েছে তা নিশ্চিত করুন। এক্সট্র্যাক্ট ফেস ইমেজগুলিতে বিভিন্ন ভঙ্গি, মুখের কোণ এবং মুখের ভাব রয়েছে।
  • দুর্বল মানের, রঙিন, ছোট, দুর্বল আলোকসজ্জা বা মুখের চিত্র আটকে দিন Remove
  • উভয় ব্যক্তির সাথে একটি সাদৃশ্য সাহায্য করতে পারে, উদাহরণস্বরূপ অনুরূপ মুখের আকার।

আমরা চাই না যে আমাদের অটো-এনকোডারটি কেবল প্রশিক্ষণের ইনপুটটি মনে রাখুক এবং আউটপুটটিকে সরাসরি প্রতিলিপি করুক। মনে রাখবেন যে সমস্ত সম্ভাবনা সম্ভব নয়। আমরা বুদ্ধিমান শেখার জন্য ডেটা ভেরিয়েন্টগুলি এবং ট্রেনের অটোরকোডারগুলিকে পরিচয় করানোর জন্য শব্দ দমন প্রবর্তন করছি। ডিনয়েস শব্দটি বিভ্রান্তিকর হতে পারে। মূল ধারণাটি কিছু তথ্য মিথ্যা বলা, তবে আমরা আশা করি স্বয়ংক্রিয় কোডারটি বুদ্ধিমানের সাথে এই সামান্য অস্বাভাবিকতা উপেক্ষা করবে এবং মূলটি পুনরায় তৈরি করবে। সুতরাং আসুন কী গুরুত্বপূর্ণ তা মনে করি এবং অপ্রয়োজনীয় বিভিন্নতা উপেক্ষা করুন। প্রশিক্ষণটি বেশ কয়েকবার পুনরাবৃত্তি করার মাধ্যমে তথ্য বিঘ্নিত হয়ে একে অপরকে বাতিল করে এবং অবশেষে ভুলে যায়। যা আমাদের কাছে আগ্রহী তা প্রকৃত নিদর্শন।

আমাদের মুখের চিত্রটিতে, আমরা 5 × 5 গ্রিড পয়েন্টগুলি নির্বাচন করি এবং তাদের আসল অবস্থান থেকে সামান্য স্থানান্তর করি। এই স্থানান্তরিত গ্রিড পয়েন্ট অনুসারে আমরা চিত্রটি রেপ করতে একটি সাধারণ অ্যালগরিদম ব্যবহার করি। এমনকি বিকৃত চিত্রটি ঠিক ঠিক দেখতে নাও পেল, তবে এটিই সেই শব্দ যা আমরা প্রবর্তন করতে চাই। তারপরে আমরা স্থানান্তরিত গ্রিড পয়েন্টগুলি ব্যবহার করে একটি লক্ষ্য চিত্র তৈরি করতে আরও জটিল অ্যালগরিদম ব্যবহার করি। আমরা চাই আমাদের তৈরি চিত্রগুলি লক্ষ্য চিত্রগুলির মতোই কাছাকাছি দেখুক।

2 × 2 গ্রিড পয়েন্টগুলির উদাহরণ।

এটি অদ্ভুত বলে মনে হচ্ছে তবে এটি অটো-এনকোডারকে সর্বাধিক গুরুত্বপূর্ণ ফাংশনগুলি শিখতে বাধ্য করে।

বিভিন্ন ভঙ্গি, মুখের কোণ এবং অবস্থানগুলির সাথে আরও ভালভাবে মোকাবেলা করতে সক্ষম হওয়ার জন্য, আমরা প্রশিক্ষণের ডেটা উন্নত করতে চিত্রের তীব্রতাও ব্যবহার করি। প্রশিক্ষণের সময় আমরা আমাদের মুখের চিত্রটি একটি নির্দিষ্ট জায়গায় এলোমেলোভাবে ঘোরান, জুম করি, অনুবাদ করি এবং ঘোরাই।

গভীর নেটওয়ার্ক মডেল

অটো-এনকোডারটি দেখতে কেমন হতে পারে তা বোঝাতে একটি সংক্ষিপ্ত বিরতি নেওয়া যাক। (সিএনএন সম্পর্কে কিছু প্রাথমিক জ্ঞান এখানে প্রয়োজনীয়)) এনকোডারটিতে বৈশিষ্ট্যগুলি নিষ্কাশনের জন্য কনভ্যুশনের 5 স্তর থাকে, তারপরে 2 স্তরগুলি ঘন হয়। তারপরে একটি কনভোলশন প্লেনটি চিত্রের আপ-স্যাম্পল করতে ব্যবহৃত হয়। Od৪ × image৪ চিত্রটি পুনরুদ্ধার না করা অবধি ডিসকোডার আরও 4 টি কনভ্যুসিভাল স্তর সহ উপস্থাপনা চালিয়ে যায়।

উদাহরণস্বরূপ, স্থানিক মাত্রা 16 × 16 থেকে 32 × 32 এ বাড়ানোর জন্য, আমরা (16, 16, 256) স্তরটিকে (16, 16, 512)। । তারপরে আমরা এটিকে রূপান্তর করি (32, 32, 128)।

সমস্যা

খুব উত্তেজিত হবেন না। যদি আপনার কোনও খারাপ বাস্তবায়ন হয়, খারাপ কনফিগারেশন থাকে বা আপনার মডেলটিকে সঠিকভাবে প্রশিক্ষণ না দিয়ে থাকে তবে আপনি পরিবর্তে নিম্নলিখিত ভিডিওটির ফলাফল পাবেন। (প্রথম কয়েক সেকেন্ড একবার দেখুন I ভিডিওটি আমি ইতিমধ্যে সকাল 3:37 এ চিহ্নিত করেছি))

মুখের অঞ্চলটি ঝাপটায়, রক্তপাতের ঝাপসা দ্বারা ঝাপসা। এবং মুখের চারপাশে সুস্পষ্ট বাক্স রয়েছে। দেখে মনে হচ্ছে লোকে তার মুখে ছবি আঁকতে নিষ্ঠুর শক্তি ব্যবহার করছে। এই বিষয়গুলি বুঝতে সহজ হয় যখন আমরা কীভাবে ম্যানুয়ালি মুখের অদলবদল করতে পারি।

আমরা 2 মহিলার জন্য দুটি ছবি (1 এবং 2) দিয়ে শুরু করি। ছবি 4 এ আমরা 1 তে 2 তে মুখ আঠালো করার চেষ্টা করছি। আমরা দেখতে পেলাম যে তার চেহারাটি খুব আলাদা এবং তার মুখের অংশটি (লাল আয়তক্ষেত্র) বেশ বড়। দেখে মনে হচ্ছে কেউ তার উপর একটি কাগজের মুখোশ লাগিয়েছে। পরিবর্তে 1 এর পরিবর্তে 2 টি মুখ .োকানোর চেষ্টা করি। ছবি 3 এ আমরা একটি ছোট বিভাগ ব্যবহার করি। আমরা এমন একটি মাস্ক তৈরি করতে যাচ্ছি যা কোণার কিছু অঞ্চল সরিয়ে ফেলবে যাতে কাটআউট আরও ভাল মিশ্রিত হবে। এটি দুর্দান্ত নয়, তবে অবশ্যই 4 এর চেয়ে ভাল better তবে সীমান্তরেখাটির চারপাশে ত্বকের স্বরে হঠাৎ পরিবর্তন এসেছে। ছবি 5 এ আমরা প্রান্তের চারপাশে মাস্কের অস্বচ্ছতা হ্রাস করি যাতে আমরা তৈরি করা মুখটি আরও ভাল মিশ্রিত করে। তবে কাটআউটের হিউ এবং উজ্জ্বলতা এখনও লক্ষ্যটির সাথে মেলে না। ছবি 6 এ আমরা রঙ এবং বিভাগটির উজ্জ্বলতাকে আমাদের লক্ষ্যে খাপ খাইয়ে নিয়েছি। এটি এখনও যথেষ্ট ভাল নয়, তবে আমাদের ক্ষুদ্র পরিশ্রমের পক্ষে খারাপ নয়।

ডিপফেকসে, তৈরি মুখের উপরে একটি মুখোশ তৈরি করা হয় যা লক্ষ্য ভিডিওতে মিশ্রিত হয়। নিদর্শনগুলি আরও বাদ দিতে, আমরা পারি

  • মাস্কের সীমানা অঞ্চলটি আরও ছড়িয়ে দিতে গাউসিয়ান ফিল্টার প্রয়োগ করুন,
  • মাস্কটি আরও প্রসারিত বা চুক্তি করতে অ্যাপ্লিকেশনটি কনফিগার করুন
  • মুখোশের আকারটি নিয়ন্ত্রণ করুন।

আপনি যদি কোনও জাল ভিডিওটি ঘনিষ্ঠভাবে দেখে থাকেন তবে আপনি মুখের উপর ডাবল ট্র্যাক বা ভুতুড়ে লক্ষ্য করতে পারেন। এটি একটি মুখোশ ব্যবহার করে দুটি চিত্র মার্জ করার পার্শ্ব প্রতিক্রিয়া। এমনকি যদি মুখোশটি মানের উন্নতি করে তবে তার জন্য মূল্য দিতে হবে। বিশেষত বেশিরভাগ নকল ভিডিও আমি দেখতে পাচ্ছি, ছবির অন্যান্য অংশের তুলনায় চেহারাটি কিছুটা লুকানো। এর জন্য ক্ষতিপূরণ দিতে আমরা মিশ্রণের আগে তৈরি মুখটিতে একটি ধারালো ফিল্টার প্রয়োগ করতে ডিপফেকস কনফিগার করতে পারি। শৈল্পিক এবং তীক্ষ্ণতার মধ্যে সঠিক ভারসাম্য রোধ করার চেষ্টা করা এটি একটি পরীক্ষা এবং ত্রুটি। অবশ্যই, বেশিরভাগ ক্ষেত্রে আমাদের লক্ষণীয় নিদর্শনগুলি অপসারণ করতে কিছুটা অস্পষ্ট চিত্র তৈরি করা দরকার।

এমনকি স্ব-এনকোডারটির এমন মুখগুলি তৈরি করা উচিত যা লক্ষ্য রঙের সাথে মেলে, কখনও কখনও এটির জন্য সহায়তা প্রয়োজন। ডিপফেকস লক্ষ্য ভিডিওর সাথে তৈরি করা মুখের বর্ণ, বৈপরীত্য এবং উজ্জ্বলতার সাথে মিল রাখতে পোস্ট প্রসেসিং সরবরাহ করে। স্বয়ংক্রিয় রঙিন সামঞ্জস্যতা ব্যবহার করে লক্ষ্য চিত্রের সাথে তৈরি চিত্রটি মিশ্রিত করতে আমরা সিভি 2 বিরামবিহীন ক্লোনিং ব্যবহার করতে পারি। যাইহোক, এই প্রচেষ্টাগুলির কয়েকটি প্রতিদ্বন্দ্বী হতে পারে। আমরা প্রদত্ত ফ্রেমটিকে দুর্দান্ত দেখতে পারি। তবে আমরা যদি এটি অতিরিক্ত পরিমাণে করি তবে এটি ফ্রেমগুলিতে অস্থায়ী স্বাচ্ছন্দ্যকে প্রভাবিত করতে পারে। প্রকৃতপক্ষে, ডিপফেকসে বিরামবিহীন ক্লোনটি ঝাঁকুনির একটি বড় কারণ। ফলস্বরূপ, ব্যবহারকারীরা প্রায়শই নির্বিঘ্নে মুছে ফেলা যায় কি না তা দেখার জন্য বন্ধ করে দেন।

ঝাঁকুনির আর একটি বড় কারণ হ'ল অটো-এনকোডারটি আসল মুখ তৈরি করছে না। এটি করার জন্য, আমাদের মডেলটিকে আরও ভাল প্রশিক্ষণের জন্য বা ডেটা ম্যাগনিফিকেশন বাড়ানোর জন্য আরও বিচিত্র চিত্র যুক্ত করতে হবে। আমাদের আরও বেশি দিন মডেলটি প্রশিক্ষণ করতে হতে পারে। যে কোনও ক্ষেত্রে আমরা কিছু ভিডিও ফ্রেমের জন্য সঠিক মুখ তৈরি করতে পারি না, আমরা সমস্যাযুক্ত ফ্রেমগুলি এড়িয়ে চলি এবং মুছে ফেলা ফ্রেমগুলি পুনরায় তৈরি করতে ইন্টারপোলেশন ব্যবহার করি।

আকর্ষণ

মূল টার্গেট ফ্রেমে ফেস মার্কিং অনুসারে আমরা আমাদের তৈরি করা মুখটি মোটা করতে পারি।

দুর্বৃত্ত ওয়ান কন্যা রাজকন্যা লিয়াদের মুখ অন্য অভিনেত্রীর দিকে টানছে।

উৎস

ভাল মুখোশ

আমাদের পূর্ববর্তী প্রয়াসে, আমাদের মুখোশটি পূর্বনির্ধারিত। যদি আমাদের মুখোশটি ইনপুট চিত্র এবং তৈরি করা মুখের সাথে সম্পর্কিত হয় তবে আমরা আরও ভাল কাজ করতে পারি।

আসুন জেনারেটরি অ্যাডভারসারি নেটওয়ার্ক (জিএন) প্রবর্তন করা যাক।

গ্যান

জিএএন মুখের চিত্রগুলি মূল বা কম্পিউটার উত্পাদিত কিনা তা পার্থক্য করতে গভীর নেটওয়ার্ক বৈষম্যমূলক (একটি সিএনএন শ্রেণিবদ্ধকারী) প্রবর্তন করে। আমরা যখন এই বৈষম্যমূলককে আসল চিত্রগুলি খাওয়াই, আমরা প্রকৃত চিত্রগুলি আরও ভালভাবে চিহ্নিত করতে আমরা বৈষম্যমূলককে নিজেই প্রশিক্ষণ দিই। যখন আমরা তৈরি চিত্রগুলিকে বৈষম্যমূলক করে ফিড করি, তখন আমরা সেগুলি আরও বাস্তবসম্মত চিত্র তৈরি করতে আমাদের অটো-এনকোডারকে প্রশিক্ষণের জন্য ব্যবহার করি। আমরা এর বাইরে একটি প্রতিযোগিতা তৈরি করি, যাতে উত্পন্ন চিত্রগুলি আসল চিত্রগুলি থেকে আলাদা করা যায় না।

এছাড়াও, আমাদের ডিকোডারটি চিত্র এবং মুখোশ উভয়ই উত্পন্ন করে। যেহেতু এই মুখোশগুলি প্রশিক্ষণের ডেটা থেকে শিখেছে, তাই চিত্রটি আরও ভালভাবে মুখোশ দেওয়া যায় এবং লক্ষ্য চিত্রটিতে একটি মসৃণ রূপান্তর উত্পন্ন করা যায়। এটি আংশিক জঞ্জাল মুখটি আরও ভালভাবে পরিচালনা করে। সম্ভাব্য জাল ভিডিওগুলিতে, মুখটি কোনও হাত দ্বারা আংশিকভাবে অবরুদ্ধ করা থাকলে ভিডিও কবর দেওয়া বা কবর দেওয়া যেতে পারে। আরও ভাল মাস্কের সাহায্যে আমরা তৈরি মুখের লুকানো জায়গাটি লুকিয়ে রাখতে পারি এবং পরিবর্তে লক্ষ্য চিত্রের অংশটি ব্যবহার করতে পারি।

যদিও জিএএন শক্তিশালী, প্রশিক্ষণটি খুব দীর্ঘ সময় নেয় এবং এটি সঠিক হওয়ার জন্য উচ্চ স্তরের দক্ষতার প্রয়োজন। সুতরাং, এটি যতটা জনপ্রিয় তা হওয়া উচিত নয় not

ক্ষতি ফাংশন

পুনরুদ্ধারের ব্যয় ছাড়াও, জিএএন মডেলটিকে প্রশিক্ষণের জন্য জেনারেটর এবং বৈষম্যমূলক ব্যয় যুক্ত করে। প্রকৃতপক্ষে, আমরা আমাদের মডেল নিখুঁত করতে সংযোজন ফাংশনগুলির ক্ষতি যুক্ত করতে পারি। একটি সাধারণ সমস্যা হ'ল প্রান্ত ব্যয়, যা লক্ষ্য চিত্র এবং তৈরি চিত্রের একই জায়গায় একই অবস্থান রয়েছে কিনা তা পরিমাপ করতে ব্যবহৃত হয়। কিছু লোক সচেতনতার ক্ষয়ক্ষতিও তদন্ত করে। পুনর্নির্মাণ ব্যয় লক্ষ্য চিত্র এবং উত্পন্ন চিত্রের মধ্যে পিক্সেল পার্থক্য পরিমাপ করে। তবে, আমাদের মস্তিস্ক কীভাবে বস্তুগুলি উপলব্ধি করে এটি এটির পক্ষে ভাল ব্যবস্থা হতে পারে না। অতএব, কিছু লোক পুনর্গঠনের আসল ক্ষতি প্রতিস্থাপনের জন্য উপলব্ধি ক্ষতির ব্যবহার করতে পারে। এটি বেশ অগ্রগতি তাই আমি এই উত্সাহীদের পরিবর্তে রেফারেন্স বিভাগে কাগজ পড়ার অনুমতি দেব। আপনি আপনার জাল ভিডিওগুলির পারফরম্যান্স আরও বিশ্লেষণ করতে পারেন এবং সমস্যার সমাধানের জন্য একটি নতুন ব্যয় বৈশিষ্ট্য প্রবর্তন করতে পারেন।

প্রদর্শন

আমাকে কয়েকটি ভাল ডিপফেকস ভিডিও বাছাই করুন এবং দেখুন যে আপনি এখন সেগুলিকে স্পট করতে পারেন কিনা। এটি ধীর গতিতে খেলুন এবং এতে বিশেষ মনোযোগ দিন:

  • ভিডিওটির মুখের নয় এমন অন্যান্য ক্ষেত্রগুলির সাথে তুলনা করা কি অস্পষ্ট?
  • এটা কি স্ন্যাপ
  • মুখের প্রান্তের কাছে কি ত্বকের স্বরে কোনও পরিবর্তন হয়েছে?
  • এটিতে কি ডাবল চিবুক, ডাবল ভ্রু, ডাবল প্রান্ত রয়েছে?
  • মুখটি যদি হাত বা অন্যান্য জিনিস দ্বারা আংশিকভাবে অবরুদ্ধ থাকে তবে কী এটি স্ন্যাপ করে বা ঝাপসা হয়ে যায়?

জাল ভিডিও তৈরি করার সময়, ভিডিওগুলিকে আরও দৃষ্টি আকর্ষণীয় করে তুলতে আমরা বিভিন্ন ক্ষতির ফাংশন প্রয়োগ করি। ট্রাম্পের নকল ছবিগুলিতে যেমন দেখা যায়, মুখের বৈশিষ্ট্যগুলি আসল চিত্রগুলির সাথে সমান, তবে আপনি যখন আরও ঘনিষ্ঠভাবে তাকান তখন সেগুলি পরিবর্তন হয়। সুতরাং আমি যদি মনে করি যে আমরা চিহ্নিত ভিডিওটিকে সনাক্তকরণের জন্য একটি শ্রেণিবদ্ধে ফিড করি তবে এটি ব্যর্থ হওয়ার ভাল সম্ভাবনা রয়েছে। এছাড়াও, সময়ের সাথে সাবলীলতা পরীক্ষা করতে আমরা প্রোগ্রাম লিখতে পারি। যেহেতু আমরা ফ্রেম জুড়ে স্বতন্ত্রভাবে মুখগুলি তৈরি করি, তাই বাস্তব ভিডিওর তুলনায় রূপান্তরটি কম মসৃণ হবে বলে আশা করা যায়।

লিপ সিঙ্ক করা অডিও

জর্দান পিলের ভিডিওটি একটি জাল কল করা সবচেয়ে কঠিন। তবে আপনি যদি ঘনিষ্ঠভাবে তাকান তবে ওবামার নীচের ঠোঁট মুখের অন্যান্য অংশের তুলনায় আরও ঝাপসা হয়ে যায়। মুখগুলি অদলবদল করার পরিবর্তে, আমি অনুমান করছি যে এটি আসল ওবামার ভিডিও, তবে মুখটি নকল অডিওর সাথে সিঙ্ক করার জন্য তৈরি করা হয়েছে।

এই বিভাগের পরে, আমরা ওয়াশিংটন বিশ্ববিদ্যালয় (ইউডাব্লু) -তে অনুশীলন করা লিপ-সিঙ্ক প্রযুক্তিটি দেখব। নীচে লিপ সিঙ্ক পেপার ওয়ার্কফ্লো রয়েছে। এটি সাপ্তাহিক রাষ্ট্রপতি ঠিকানার অডিওকে অন্য অডিও (ইনপুট অডিও) এর সাথে প্রতিস্থাপন করে। এটি করতে গিয়ে, আমরা মুখ এবং চিবুক অঞ্চলটি পুনরায় সংশ্লেষিত করি যাতে এর চলনটি নকল অডিওর সাথে সিঙ্ক্রোনাইজ হয়।

উৎস

প্রথমত, একটি এলএসটিএম নেটওয়ার্ক ব্যবহার করে, অডিও এক্স ঠোঁটে 18 টি ল্যান্ডমার্ক ওয়াইয়ের অনুক্রমে রূপান্তরিত হয়। এই LSTM প্রতিটি ভিডিও ফ্রেমের আউটপুট জন্য একটি বিরল মুখ আকৃতি আউটপুট করে।

উত্স থেকে পরিবর্তিত

মুখ y এর আকারের কারণে মুখের কাঠামোগুলি মুখ এবং চিবুক অঞ্চলে সংশ্লেষিত হয়। এই মুখের টেক্সচারগুলি পরে লক্ষ্য ফ্রেমটি পুনরায় তৈরি করতে লক্ষ্য ভিডিওর সাথে একত্রে তৈরি হয়:

উৎস

আমরা কীভাবে মুখের কাঠামো তৈরি করব? আমরা এটি বাস্তব দেখতে চাই তবে সময় মতো মসৃণ হোক। সুতরাং, অ্যাপ্লিকেশনটি প্রার্থী ফ্রেমের জন্য লক্ষ্যযুক্ত ভিডিওগুলি অনুসন্ধান করে যা আমাদের মতো গণনা করা মুখের আকার shape তারপরে আমরা একটি মধ্যবর্তী ফাংশন ব্যবহার করে প্রার্থীদের সাথে মেলে। নীচে যেমন দেখানো হয়েছে, গড় হিসাবে আরও বেশি প্রার্থী ফ্রেম ব্যবহার করা হয়, তেমনি চিত্রটি ঝাপসা হয়ে যায়, যখন অস্থায়ী সাবলীলতা উন্নত হয় (কোনও ঝাঁকুনি নেই)। অন্যদিকে, চিত্রটি কম দাফন করা হতে পারে তবে এক চিত্র থেকে অন্য চিত্রে রূপান্তর হিসাবে একটি লাইন থাকতে পারে।

উৎস

অস্পষ্টতার জন্য ক্ষতিপূরণ করার জন্য, দাঁতগুলি চাঙ্গা করা এবং তীক্ষ্ণ করা হয়। তবে স্পষ্টতই নীচের ঠোঁটের তীক্ষ্ণতা পুরোপুরি পুনরুদ্ধার করা যায় না।

উৎস

অবশেষে, আমাদের ফ্রেমটি পুনরায় নির্ধারণ করতে হবে যাতে আমরা জানতে পারি যেখানে ভুল মুখের টেক্সচারটি রাখা উচিত। এটি আমাদের মাথা চলাচলের সাথে সুসংগত করতে সহায়তা করে। বিশেষত ওবামার বক্তব্য যখন বাধা দেয়, তখন সাধারণত মাথা থামে।

নীচে শীর্ষ সারিতে আমরা ব্যবহার করছি অডিও ইনপুট সংকেতের জন্য মূল ভিডিও চিত্র রয়েছে contains আমরা এই অডিও ইনপুটটিকে আমাদের টার্গেট ভিডিওতে যুক্ত করব (দ্বিতীয় লাইন)। যদি আমরা পাশাপাশি এটির তুলনা করি তবে আমরা দেখতে পাই যে আসল ভিডিও থেকে মুখের চলাচল উদ্ভাবিত মুখের চলাফেরার খুব কাছাকাছি।

উৎস

UW মুখের টেক্সচার তৈরি করতে বিদ্যমান ফ্রেম ব্যবহার করে uses পরিবর্তে, আমরা অটো-এনকোডার থেকে সরাসরি মুখের টেক্সচার তৈরি করতে ডিপফেকস ধারণাটি ব্যবহার করতে পারি। আমাদের এক হাজার ফ্রেম সংগ্রহ করতে হবে এবং ভিডিও এবং অডিও উভয় থেকেই ফাংশনগুলি বের করতে LSTM ব্যবহার করতে হবে। তারপরে আমরা মুখের টেক্সচার তৈরি করতে একটি ডিকোডারকে প্রশিক্ষণ দিতে পারি।

আরও চিন্তা

আমরা কীভাবে নতুন ধারণা এবং পণ্য তৈরি করতে এআই ধারণাটি প্রয়োগ করি তা দেখার জন্য বিশেষত আকর্ষণীয়, তবে সতর্কতা ছাড়াই নয়! সামাজিক প্রভাব বিরাট হতে পারে। মজাদার জন্য জাল ভিডিও পোস্ট করবেন না! এটি আপনাকে আইনী সমস্যায় ফেলতে পারে এবং আপনার অনলাইন সুনামের ক্ষতি করতে পারে। মেটা-শিক্ষায় আগ্রহী এবং বিরোধীদের সনাক্তকরণের কারণে আমি এই বিষয়টি নিয়ে কাজ করছি। আরও উদ্ভাবনী জিনিসে আপনার শক্তি আরও ভাল ব্যবহার করুন। অন্যদিকে, নকল ভিডিও রাখা এবং উন্নত করা হয়। আরও ভাল জাল ভিডিও করা আমার উদ্দেশ্য নয়। আমি আশা করি যে এই প্রক্রিয়াটির মাধ্যমে আমরা জানব কীভাবে আমরা চিত্রটির পুনর্গঠন করতে আরও ভালভাবে জিএন প্রয়োগ করতে পারি। সম্ভবত একদিন এটি টিউমারগুলি খুঁজে বের করতে সহায়ক হতে পারে।

অন্য সাবধানতা হিসাবে, ডিপফেকস ভিডিওগুলি তৈরি করতে আপনার ডাউনলোড করা অ্যাপ্লিকেশনগুলি সম্পর্কে আপনার যত্নবান হওয়া উচিত। কিছু অ্যাপস ক্রিপ্টোকারেন্সিটি খনিতে কম্পিউটার হাইজ্যাক করছে বলে খবর পাওয়া গেছে। সাবধান হও.

অন্যান্য নিবন্ধের তালিকা

রেফারেন্স

সংশ্লেষিত ওবামা: অডিও থেকে লিপ সিঙ্ক শিখুন

বিরামবিহীন ক্লোনিং

উপলব্ধি হ্রাস

ক্রেডিট

ছবির ক্রেডিট (হেডস্কার্ট, মহিলা)