Home খবর স্ট্যাবল ডিফিউশন প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের পিছনের সংস্থাটি CSAM সরিয়ে দিয়েছে বলে দাবি করে
খবর

স্ট্যাবল ডিফিউশন প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের পিছনের সংস্থাটি CSAM সরিয়ে দিয়েছে বলে দাবি করে

Share
Share

লায়ন, জার্মান গবেষণা সংস্থা যা প্রশিক্ষণের জন্য ব্যবহৃত ডেটা তৈরি করে স্থিতিশীল বিস্তারঅন্যান্য জেনারেটিভ এআই মডেলের মধ্যে রয়েছে মুক্তি একটি নতুন ডেটাসেট যা তিনি বলেছেন যে “সন্দেহজনক শিশু যৌন নির্যাতন সামগ্রী (CSAM) এর পরিচিত লিঙ্কগুলি সম্পূর্ণরূপে পরিষ্কার করা হয়েছে।”

নতুন ডেটাসেট, Re-LAION-5B, আসলে একটি পুরানো ডেটাসেট, LAION-5B-এর পুনঃপ্রকাশ — কিন্তু অলাভজনক ইন্টারনেট ওয়াচ ফাউন্ডেশন, হিউম্যান রাইটস ওয়াচ, কানাডিয়ান সেন্টার ফর চাইল্ড-এর সুপারিশের সাথে বাস্তবায়িত “সমাধান” সহ সুরক্ষা এবং এখন বিলুপ্ত স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি। এটি দুটি সংস্করণে ডাউনলোডের জন্য উপলব্ধ, Re-LAION-5B রিসার্চ এবং Re-LAION-5B রিসার্চ-সেফ (যা অতিরিক্ত NSFW সামগ্রীও সরিয়ে দেয়), উভয়ই পরিচিত – এবং “সম্ভাব্য” – CSAM, এটির হাজার হাজার লিঙ্কের জন্য ফিল্টার করা হয়েছে। LAION কে বলে।

“LAION শুরু থেকেই তার ডেটাসেট থেকে অবৈধ বিষয়বস্তু মুছে ফেলার জন্য প্রতিশ্রুতিবদ্ধ এবং শুরু থেকেই এই লক্ষ্য অর্জনের জন্য উপযুক্ত ব্যবস্থা বাস্তবায়ন করেছে,” LAION একটি বার্তায় লিখেছেন ব্লগ পোস্ট. “LAION কঠোরভাবে নীতি অনুসরণ করে যে অবৈধ বিষয়বস্তু আবিষ্কৃত হওয়ার পরে যত তাড়াতাড়ি সম্ভব সরানো হয়।”

এটি লক্ষ করা গুরুত্বপূর্ণ যে LAION ডেটাসেটে ছবি থাকে না — এবং কখনও ধারণ করেনি — ছবি। পরিবর্তে, এগুলি হল ইমেজ এবং ইমেজ অল্ট টেক্সটের লিঙ্কগুলির সূচী যা LAION নির্বাচন করেছে, সবগুলি একটি থেকে এসেছে ভিন্ন ডেটাসেট — সাধারণ ক্রল — সংগৃহীত ওয়েবসাইট এবং ওয়েব পৃষ্ঠাগুলির।

রি-LAION-5B-এর সূচনাটি স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরির ডিসেম্বর 2023 সালের তদন্তের অনুসরণ করে যা দেখেছে যে LAION-5B – বিশেষ করে LAION-5B 400M নামে একটি উপসেট – সামাজিক এবং জনপ্রিয় মিডিয়া পোস্টগুলি থেকে স্ক্র্যাপ করা অবৈধ ছবির কমপক্ষে 1,679টি লিঙ্ক অন্তর্ভুক্ত করেছে। প্রাপ্তবয়স্কদের সাইট। রিপোর্ট অনুসারে, 400M-এ “পর্নোগ্রাফিক ছবি, বর্ণবাদী অপবাদ এবং ক্ষতিকারক সামাজিক স্টেরিওটাইপ সহ বিস্তৃত অনুপযুক্ত বিষয়বস্তুর” লিঙ্ক রয়েছে।

যদিও স্ট্যানফোর্ড রিপোর্টের সহ-লেখকরা উল্লেখ করেছেন যে আপত্তিকর বিষয়বস্তু অপসারণ করা কঠিন হবে এবং CSAM-এর উপস্থিতি অপরিহার্যভাবে ডেটাসেটে প্রশিক্ষিত মডেলের আউটপুটকে প্রভাবিত করে না, LAION বলে যে এটি LAION-5B সাময়িকভাবে অফলাইনে নিয়ে যাবে।

স্ট্যানফোর্ড রিপোর্টে সুপারিশ করা হয়েছে যে LAION-5B-তে প্রশিক্ষিত মডেলগুলি “যখন সম্ভব বন্ধ করা উচিত এবং বিতরণ বন্ধ করা উচিত।” সম্ভবত সম্পর্কিত, এআই স্টার্টআপ রানওয়ে সম্প্রতি সরানো হয়েছে হাগিং ফেস এআই হোস্টিং প্ল্যাটফর্মের স্ট্যাবল ডিফিউশন 1.5 মডেল; আমরা আরও তথ্যের জন্য কোম্পানির সাথে যোগাযোগ করেছি। (2023 সালে রানওয়ে স্থিতিশীলতা AI এর সাথে অংশীদারিত্ব করেছে, যেটি স্টেবল ডিফিউশনের পিছনে রয়েছে, মূল স্টেবল ডিফিউশন মডেলকে প্রশিক্ষণে সহায়তা করতে।)

নতুন Re-LAION-5B ডেটাসেট থেকে, যেটিতে প্রায় 5.5 বিলিয়ন টেক্সট-ইমেজ জোড়া রয়েছে এবং এটি একটি Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছিল, LAION বলে যে মেটাডেটা তৃতীয় পক্ষের দ্বারা LAION-5B থেকে বিদ্যমান ফাইলগুলিকে সরিয়ে দিয়ে পরিষ্কার করার জন্য ব্যবহার করা যেতে পারে। সংশ্লিষ্ট অবৈধ বিষয়বস্তু।

LAION জোর দেয় যে এর ডেটাসেটগুলি গবেষণার উদ্দেশ্যে – বাণিজ্যিক নয় – উদ্দেশ্যে। কিন্তু ইতিহাস যদি কোনো ইঙ্গিত হয়, তবে তা কিছু সংস্থাকে বাধা দেবে না। স্থিতিশীলতা AI ছাড়াও, Google ইতিমধ্যেই LAION ডেটাসেটগুলিকে তার ইমেজ জেনারেশন মডেলগুলিকে প্রশিক্ষণ দিতে ব্যবহার করেছে৷

“মোট, 2,236টি লিঙ্ক (সন্দেহজনক CSAM-এর জন্য) আমাদের অংশীদারদের দেওয়া লিঙ্ক এবং ছবির হ্যাশ তালিকার সাথে মিলে যাওয়ার পরে সরানো হয়েছে,” LAION পোস্টে অব্যাহত রেখেছে। “এই লিঙ্কগুলির মধ্যে 2023 সালের ডিসেম্বরে স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি রিপোর্ট দ্বারা পাওয়া 1,008টি লিঙ্কও রয়েছে… আমরা দৃঢ়ভাবে সমস্ত গবেষণা ল্যাবরেটরি এবং সংস্থাগুলিকে জোরালোভাবে অনুরোধ করছি যেগুলি এখনও পুরানো LAION-5B ব্যবহার করছে যত তাড়াতাড়ি সম্ভব Re-LAION-ডেটাসেট 5B-তে স্থানান্তরিত হতে সম্ভব।”

Source link

Share

Leave a comment

Leave a Reply

Your email address will not be published. Required fields are marked *

Don't Miss

ডেভিড ল্যামি সাবস্ট্যাক ব্লগ পোস্টে কূটনৈতিক ত্রুটির জন্য অভিযুক্ত

বিনামূল্যের সম্পাদকের ডাইজেস্ট আনলক করুন এফটি সম্পাদক রাউলা খালাফ এই সাপ্তাহিক নিউজলেটারে তার প্রিয় গল্পগুলি নির্বাচন করেছেন। আজারবাইজান ককেশাসের বিতর্কিত অঞ্চল নাগর্নো-কারাবাখকে “মুক্ত”...

নেট সাইন ইন জি কিলিয়ান হেইস, এফ টাইরেস মার্টিন

জানুয়ারী 20, 2024; ডেট্রয়েট, মিশিগান, মার্কিন যুক্তরাষ্ট্র; লিটল সিজারস এরেনায় প্রথমার্ধে মিলওয়াকি বাকস গার্ড ড্যামিয়ান লিলার্ড (0) এর দ্বারা ডিট্রয়েট পিস্টনস গার্ড কিলিয়ান...

Related Articles

প্রবল তুষারপাতের কারণে রাস্তা বন্ধ হয়ে গেছে এবং ড্রাইভাররা দক্ষিণ আফ্রিকায় আটকা পড়েছে

দক্ষিণ আফ্রিকায় অস্বাভাবিকভাবে ভারী তুষারপাতের পরে রাস্তাগুলি বন্ধ ছিল এবং গাড়ি চালকদের...

পরিবেশকর্মীরা ক্রুজ জাহাজ থেকে দূষণের প্রতিবাদে মার্সেই বন্দর অবরোধ করে

বিলুপ্তি বিদ্রোহ এবং স্টপ ক্রোসিয়েরেসের পরিবেশবাদী বিক্ষোভকারীরা শনিবার মার্সেই ক্রুজ বন্দর অবরোধ...

বার্কলেসের উপর সিটিগ্রুপ বেছে নিতে আলোচনায় AA

একটি আমেরিকান এয়ারলাইনস এমব্রেয়ার E175LR (সামনে), একটি আমেরিকান এয়ারলাইন্স বোয়িং 737 (C),...