Home খবর স্ট্যাবল ডিফিউশন প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের পিছনের সংস্থাটি CSAM সরিয়ে দিয়েছে বলে দাবি করে
খবর

স্ট্যাবল ডিফিউশন প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের পিছনের সংস্থাটি CSAM সরিয়ে দিয়েছে বলে দাবি করে

Share
Share

লায়ন, জার্মান গবেষণা সংস্থা যা প্রশিক্ষণের জন্য ব্যবহৃত ডেটা তৈরি করে স্থিতিশীল বিস্তারঅন্যান্য জেনারেটিভ এআই মডেলের মধ্যে রয়েছে মুক্তি একটি নতুন ডেটাসেট যা তিনি বলেছেন যে “সন্দেহজনক শিশু যৌন নির্যাতন সামগ্রী (CSAM) এর পরিচিত লিঙ্কগুলি সম্পূর্ণরূপে পরিষ্কার করা হয়েছে।”

নতুন ডেটাসেট, Re-LAION-5B, আসলে একটি পুরানো ডেটাসেট, LAION-5B-এর পুনঃপ্রকাশ — কিন্তু অলাভজনক ইন্টারনেট ওয়াচ ফাউন্ডেশন, হিউম্যান রাইটস ওয়াচ, কানাডিয়ান সেন্টার ফর চাইল্ড-এর সুপারিশের সাথে বাস্তবায়িত “সমাধান” সহ সুরক্ষা এবং এখন বিলুপ্ত স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি। এটি দুটি সংস্করণে ডাউনলোডের জন্য উপলব্ধ, Re-LAION-5B রিসার্চ এবং Re-LAION-5B রিসার্চ-সেফ (যা অতিরিক্ত NSFW সামগ্রীও সরিয়ে দেয়), উভয়ই পরিচিত – এবং “সম্ভাব্য” – CSAM, এটির হাজার হাজার লিঙ্কের জন্য ফিল্টার করা হয়েছে। LAION কে বলে।

“LAION শুরু থেকেই তার ডেটাসেট থেকে অবৈধ বিষয়বস্তু মুছে ফেলার জন্য প্রতিশ্রুতিবদ্ধ এবং শুরু থেকেই এই লক্ষ্য অর্জনের জন্য উপযুক্ত ব্যবস্থা বাস্তবায়ন করেছে,” LAION একটি বার্তায় লিখেছেন ব্লগ পোস্ট. “LAION কঠোরভাবে নীতি অনুসরণ করে যে অবৈধ বিষয়বস্তু আবিষ্কৃত হওয়ার পরে যত তাড়াতাড়ি সম্ভব সরানো হয়।”

এটি লক্ষ করা গুরুত্বপূর্ণ যে LAION ডেটাসেটে ছবি থাকে না — এবং কখনও ধারণ করেনি — ছবি। পরিবর্তে, এগুলি হল ইমেজ এবং ইমেজ অল্ট টেক্সটের লিঙ্কগুলির সূচী যা LAION নির্বাচন করেছে, সবগুলি একটি থেকে এসেছে ভিন্ন ডেটাসেট — সাধারণ ক্রল — সংগৃহীত ওয়েবসাইট এবং ওয়েব পৃষ্ঠাগুলির।

রি-LAION-5B-এর সূচনাটি স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরির ডিসেম্বর 2023 সালের তদন্তের অনুসরণ করে যা দেখেছে যে LAION-5B – বিশেষ করে LAION-5B 400M নামে একটি উপসেট – সামাজিক এবং জনপ্রিয় মিডিয়া পোস্টগুলি থেকে স্ক্র্যাপ করা অবৈধ ছবির কমপক্ষে 1,679টি লিঙ্ক অন্তর্ভুক্ত করেছে। প্রাপ্তবয়স্কদের সাইট। রিপোর্ট অনুসারে, 400M-এ “পর্নোগ্রাফিক ছবি, বর্ণবাদী অপবাদ এবং ক্ষতিকারক সামাজিক স্টেরিওটাইপ সহ বিস্তৃত অনুপযুক্ত বিষয়বস্তুর” লিঙ্ক রয়েছে।

যদিও স্ট্যানফোর্ড রিপোর্টের সহ-লেখকরা উল্লেখ করেছেন যে আপত্তিকর বিষয়বস্তু অপসারণ করা কঠিন হবে এবং CSAM-এর উপস্থিতি অপরিহার্যভাবে ডেটাসেটে প্রশিক্ষিত মডেলের আউটপুটকে প্রভাবিত করে না, LAION বলে যে এটি LAION-5B সাময়িকভাবে অফলাইনে নিয়ে যাবে।

স্ট্যানফোর্ড রিপোর্টে সুপারিশ করা হয়েছে যে LAION-5B-তে প্রশিক্ষিত মডেলগুলি “যখন সম্ভব বন্ধ করা উচিত এবং বিতরণ বন্ধ করা উচিত।” সম্ভবত সম্পর্কিত, এআই স্টার্টআপ রানওয়ে সম্প্রতি সরানো হয়েছে হাগিং ফেস এআই হোস্টিং প্ল্যাটফর্মের স্ট্যাবল ডিফিউশন 1.5 মডেল; আমরা আরও তথ্যের জন্য কোম্পানির সাথে যোগাযোগ করেছি। (2023 সালে রানওয়ে স্থিতিশীলতা AI এর সাথে অংশীদারিত্ব করেছে, যেটি স্টেবল ডিফিউশনের পিছনে রয়েছে, মূল স্টেবল ডিফিউশন মডেলকে প্রশিক্ষণে সহায়তা করতে।)

নতুন Re-LAION-5B ডেটাসেট থেকে, যেটিতে প্রায় 5.5 বিলিয়ন টেক্সট-ইমেজ জোড়া রয়েছে এবং এটি একটি Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছিল, LAION বলে যে মেটাডেটা তৃতীয় পক্ষের দ্বারা LAION-5B থেকে বিদ্যমান ফাইলগুলিকে সরিয়ে দিয়ে পরিষ্কার করার জন্য ব্যবহার করা যেতে পারে। সংশ্লিষ্ট অবৈধ বিষয়বস্তু।

LAION জোর দেয় যে এর ডেটাসেটগুলি গবেষণার উদ্দেশ্যে – বাণিজ্যিক নয় – উদ্দেশ্যে। কিন্তু ইতিহাস যদি কোনো ইঙ্গিত হয়, তবে তা কিছু সংস্থাকে বাধা দেবে না। স্থিতিশীলতা AI ছাড়াও, Google ইতিমধ্যেই LAION ডেটাসেটগুলিকে তার ইমেজ জেনারেশন মডেলগুলিকে প্রশিক্ষণ দিতে ব্যবহার করেছে৷

“মোট, 2,236টি লিঙ্ক (সন্দেহজনক CSAM-এর জন্য) আমাদের অংশীদারদের দেওয়া লিঙ্ক এবং ছবির হ্যাশ তালিকার সাথে মিলে যাওয়ার পরে সরানো হয়েছে,” LAION পোস্টে অব্যাহত রেখেছে। “এই লিঙ্কগুলির মধ্যে 2023 সালের ডিসেম্বরে স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি রিপোর্ট দ্বারা পাওয়া 1,008টি লিঙ্কও রয়েছে… আমরা দৃঢ়ভাবে সমস্ত গবেষণা ল্যাবরেটরি এবং সংস্থাগুলিকে জোরালোভাবে অনুরোধ করছি যেগুলি এখনও পুরানো LAION-5B ব্যবহার করছে যত তাড়াতাড়ি সম্ভব Re-LAION-ডেটাসেট 5B-তে স্থানান্তরিত হতে সম্ভব।”

Source link

Share

Don't Miss

আফগানের গাড়ি গাড়িটি মিউনিখের পথচারীদের মধ্যে দুই ডজনকে আঘাত করে

নিখরচায় সম্পাদকের সংক্ষিপ্তসারটি আনলক করুন এফটি সম্পাদক রাউলা খালাফ এই সাপ্তাহিক নিউজলেটারে তার প্রিয় গল্পগুলি নির্বাচন করেছেন। ২৪ বছর বয়সী আফগান ব্যক্তি তিন...

হকস ফ্যারি ন্যানস জুনিয়র (হাঁটু), ভিট ক্রেজি (পিছনে) বেশ কয়েক সপ্তাহ ধরে হারিয়েছেন

ফেব্রুয়ারী 10, 2025; অরল্যান্ডো, ফ্লোরিডা, মার্কিন যুক্তরাষ্ট্র; আটলান্টা হকসের স্ট্রাইকার ল্যারি ন্যানস জুনিয়র (২২) কেআইএ সেন্টারে চতুর্থ কোয়ার্টারে অরল্যান্ডো ম্যাজিকের বিপক্ষে আটলান্টা হকস...

Related Articles

যেহেতু চীনের ডিপসেক প্রসারিত ডেটা সেন্টার বাজারকে বাড়িয়ে তুলতে পারে

চীনের ডিপসেক বিক্রয়ের পেছন থেকে সস্তা এবং আরও দক্ষ এআই মডেলের উত্থান...

‘নতুন পদক্ষেপ, নতুন প্রতিশ্রুতিগুলি এই নতুন সিরিয়ান কর্তৃপক্ষের ভাল বিশ্বাসের প্রমাণ হবে’

ফরাসী রাষ্ট্রপতি এমমানুয়েল ম্যাক্রন সিরিয়ার নতুন নেতাদের “প্রশাসনের যে প্রতিনিধি এবং সকলের...

আমেরিকান কর্তৃপক্ষগুলি স্নাতকোত্তর ডিগ্রির জন্য একত্রিত হওয়ার পরেও ইউরোপকে অবশ্যই প্রতিরক্ষাতে আরও তীব্র করতে হবে

ন্যাটো সেক্রেটারি -জেনারেল মার্ক রুট, মার্কিন প্রতিরক্ষা সেক্রেটারি পিট হেগসেথ, ব্রিটেনের প্রতিরক্ষা...

মার্কিন যুক্তরাষ্ট্র এবং ভারত 2030 সালের মধ্যে দ্বিপক্ষীয় বাণিজ্যকে 500 বিলিয়ন ডলারে উন্নীত করতে

মার্কিন প্রেসিডেন্ট ডোনাল্ড ট্রাম্প এবং প্রথম ভারতীয় মন্ত্রী নরেন্দ্র মোদী ১৩ ফেব্রুয়ারি,...