লায়ন, জার্মান গবেষণা সংস্থা যা প্রশিক্ষণের জন্য ব্যবহৃত ডেটা তৈরি করে স্থিতিশীল বিস্তারঅন্যান্য জেনারেটিভ এআই মডেলের মধ্যে রয়েছে মুক্তি একটি নতুন ডেটাসেট যা তিনি বলেছেন যে “সন্দেহজনক শিশু যৌন নির্যাতন সামগ্রী (CSAM) এর পরিচিত লিঙ্কগুলি সম্পূর্ণরূপে পরিষ্কার করা হয়েছে।”
নতুন ডেটাসেট, Re-LAION-5B, আসলে একটি পুরানো ডেটাসেট, LAION-5B-এর পুনঃপ্রকাশ — কিন্তু অলাভজনক ইন্টারনেট ওয়াচ ফাউন্ডেশন, হিউম্যান রাইটস ওয়াচ, কানাডিয়ান সেন্টার ফর চাইল্ড-এর সুপারিশের সাথে বাস্তবায়িত “সমাধান” সহ সুরক্ষা এবং এখন বিলুপ্ত স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি। এটি দুটি সংস্করণে ডাউনলোডের জন্য উপলব্ধ, Re-LAION-5B রিসার্চ এবং Re-LAION-5B রিসার্চ-সেফ (যা অতিরিক্ত NSFW সামগ্রীও সরিয়ে দেয়), উভয়ই পরিচিত – এবং “সম্ভাব্য” – CSAM, এটির হাজার হাজার লিঙ্কের জন্য ফিল্টার করা হয়েছে। LAION কে বলে।
“LAION শুরু থেকেই তার ডেটাসেট থেকে অবৈধ বিষয়বস্তু মুছে ফেলার জন্য প্রতিশ্রুতিবদ্ধ এবং শুরু থেকেই এই লক্ষ্য অর্জনের জন্য উপযুক্ত ব্যবস্থা বাস্তবায়ন করেছে,” LAION একটি বার্তায় লিখেছেন ব্লগ পোস্ট. “LAION কঠোরভাবে নীতি অনুসরণ করে যে অবৈধ বিষয়বস্তু আবিষ্কৃত হওয়ার পরে যত তাড়াতাড়ি সম্ভব সরানো হয়।”
এটি লক্ষ করা গুরুত্বপূর্ণ যে LAION ডেটাসেটে ছবি থাকে না — এবং কখনও ধারণ করেনি — ছবি। পরিবর্তে, এগুলি হল ইমেজ এবং ইমেজ অল্ট টেক্সটের লিঙ্কগুলির সূচী যা LAION নির্বাচন করেছে, সবগুলি একটি থেকে এসেছে ভিন্ন ডেটাসেট — সাধারণ ক্রল — সংগৃহীত ওয়েবসাইট এবং ওয়েব পৃষ্ঠাগুলির।
রি-LAION-5B-এর সূচনাটি স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরির ডিসেম্বর 2023 সালের তদন্তের অনুসরণ করে যা দেখেছে যে LAION-5B – বিশেষ করে LAION-5B 400M নামে একটি উপসেট – সামাজিক এবং জনপ্রিয় মিডিয়া পোস্টগুলি থেকে স্ক্র্যাপ করা অবৈধ ছবির কমপক্ষে 1,679টি লিঙ্ক অন্তর্ভুক্ত করেছে। প্রাপ্তবয়স্কদের সাইট। রিপোর্ট অনুসারে, 400M-এ “পর্নোগ্রাফিক ছবি, বর্ণবাদী অপবাদ এবং ক্ষতিকারক সামাজিক স্টেরিওটাইপ সহ বিস্তৃত অনুপযুক্ত বিষয়বস্তুর” লিঙ্ক রয়েছে।
যদিও স্ট্যানফোর্ড রিপোর্টের সহ-লেখকরা উল্লেখ করেছেন যে আপত্তিকর বিষয়বস্তু অপসারণ করা কঠিন হবে এবং CSAM-এর উপস্থিতি অপরিহার্যভাবে ডেটাসেটে প্রশিক্ষিত মডেলের আউটপুটকে প্রভাবিত করে না, LAION বলে যে এটি LAION-5B সাময়িকভাবে অফলাইনে নিয়ে যাবে।
স্ট্যানফোর্ড রিপোর্টে সুপারিশ করা হয়েছে যে LAION-5B-তে প্রশিক্ষিত মডেলগুলি “যখন সম্ভব বন্ধ করা উচিত এবং বিতরণ বন্ধ করা উচিত।” সম্ভবত সম্পর্কিত, এআই স্টার্টআপ রানওয়ে সম্প্রতি সরানো হয়েছে হাগিং ফেস এআই হোস্টিং প্ল্যাটফর্মের স্ট্যাবল ডিফিউশন 1.5 মডেল; আমরা আরও তথ্যের জন্য কোম্পানির সাথে যোগাযোগ করেছি। (2023 সালে রানওয়ে স্থিতিশীলতা AI এর সাথে অংশীদারিত্ব করেছে, যেটি স্টেবল ডিফিউশনের পিছনে রয়েছে, মূল স্টেবল ডিফিউশন মডেলকে প্রশিক্ষণে সহায়তা করতে।)
নতুন Re-LAION-5B ডেটাসেট থেকে, যেটিতে প্রায় 5.5 বিলিয়ন টেক্সট-ইমেজ জোড়া রয়েছে এবং এটি একটি Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছিল, LAION বলে যে মেটাডেটা তৃতীয় পক্ষের দ্বারা LAION-5B থেকে বিদ্যমান ফাইলগুলিকে সরিয়ে দিয়ে পরিষ্কার করার জন্য ব্যবহার করা যেতে পারে। সংশ্লিষ্ট অবৈধ বিষয়বস্তু।
LAION জোর দেয় যে এর ডেটাসেটগুলি গবেষণার উদ্দেশ্যে – বাণিজ্যিক নয় – উদ্দেশ্যে। কিন্তু ইতিহাস যদি কোনো ইঙ্গিত হয়, তবে তা কিছু সংস্থাকে বাধা দেবে না। স্থিতিশীলতা AI ছাড়াও, Google ইতিমধ্যেই LAION ডেটাসেটগুলিকে তার ইমেজ জেনারেশন মডেলগুলিকে প্রশিক্ষণ দিতে ব্যবহার করেছে৷
“মোট, 2,236টি লিঙ্ক (সন্দেহজনক CSAM-এর জন্য) আমাদের অংশীদারদের দেওয়া লিঙ্ক এবং ছবির হ্যাশ তালিকার সাথে মিলে যাওয়ার পরে সরানো হয়েছে,” LAION পোস্টে অব্যাহত রেখেছে। “এই লিঙ্কগুলির মধ্যে 2023 সালের ডিসেম্বরে স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি রিপোর্ট দ্বারা পাওয়া 1,008টি লিঙ্কও রয়েছে… আমরা দৃঢ়ভাবে সমস্ত গবেষণা ল্যাবরেটরি এবং সংস্থাগুলিকে জোরালোভাবে অনুরোধ করছি যেগুলি এখনও পুরানো LAION-5B ব্যবহার করছে যত তাড়াতাড়ি সম্ভব Re-LAION-ডেটাসেট 5B-তে স্থানান্তরিত হতে সম্ভব।”