Home খবর স্ট্যাবল ডিফিউশন প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের পিছনের সংস্থাটি CSAM সরিয়ে দিয়েছে বলে দাবি করে
খবর

স্ট্যাবল ডিফিউশন প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের পিছনের সংস্থাটি CSAM সরিয়ে দিয়েছে বলে দাবি করে

Share
Share

লায়ন, জার্মান গবেষণা সংস্থা যা প্রশিক্ষণের জন্য ব্যবহৃত ডেটা তৈরি করে স্থিতিশীল বিস্তারঅন্যান্য জেনারেটিভ এআই মডেলের মধ্যে রয়েছে মুক্তি একটি নতুন ডেটাসেট যা তিনি বলেছেন যে “সন্দেহজনক শিশু যৌন নির্যাতন সামগ্রী (CSAM) এর পরিচিত লিঙ্কগুলি সম্পূর্ণরূপে পরিষ্কার করা হয়েছে।”

নতুন ডেটাসেট, Re-LAION-5B, আসলে একটি পুরানো ডেটাসেট, LAION-5B-এর পুনঃপ্রকাশ — কিন্তু অলাভজনক ইন্টারনেট ওয়াচ ফাউন্ডেশন, হিউম্যান রাইটস ওয়াচ, কানাডিয়ান সেন্টার ফর চাইল্ড-এর সুপারিশের সাথে বাস্তবায়িত “সমাধান” সহ সুরক্ষা এবং এখন বিলুপ্ত স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি। এটি দুটি সংস্করণে ডাউনলোডের জন্য উপলব্ধ, Re-LAION-5B রিসার্চ এবং Re-LAION-5B রিসার্চ-সেফ (যা অতিরিক্ত NSFW সামগ্রীও সরিয়ে দেয়), উভয়ই পরিচিত – এবং “সম্ভাব্য” – CSAM, এটির হাজার হাজার লিঙ্কের জন্য ফিল্টার করা হয়েছে। LAION কে বলে।

“LAION শুরু থেকেই তার ডেটাসেট থেকে অবৈধ বিষয়বস্তু মুছে ফেলার জন্য প্রতিশ্রুতিবদ্ধ এবং শুরু থেকেই এই লক্ষ্য অর্জনের জন্য উপযুক্ত ব্যবস্থা বাস্তবায়ন করেছে,” LAION একটি বার্তায় লিখেছেন ব্লগ পোস্ট. “LAION কঠোরভাবে নীতি অনুসরণ করে যে অবৈধ বিষয়বস্তু আবিষ্কৃত হওয়ার পরে যত তাড়াতাড়ি সম্ভব সরানো হয়।”

এটি লক্ষ করা গুরুত্বপূর্ণ যে LAION ডেটাসেটে ছবি থাকে না — এবং কখনও ধারণ করেনি — ছবি। পরিবর্তে, এগুলি হল ইমেজ এবং ইমেজ অল্ট টেক্সটের লিঙ্কগুলির সূচী যা LAION নির্বাচন করেছে, সবগুলি একটি থেকে এসেছে ভিন্ন ডেটাসেট — সাধারণ ক্রল — সংগৃহীত ওয়েবসাইট এবং ওয়েব পৃষ্ঠাগুলির।

রি-LAION-5B-এর সূচনাটি স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরির ডিসেম্বর 2023 সালের তদন্তের অনুসরণ করে যা দেখেছে যে LAION-5B – বিশেষ করে LAION-5B 400M নামে একটি উপসেট – সামাজিক এবং জনপ্রিয় মিডিয়া পোস্টগুলি থেকে স্ক্র্যাপ করা অবৈধ ছবির কমপক্ষে 1,679টি লিঙ্ক অন্তর্ভুক্ত করেছে। প্রাপ্তবয়স্কদের সাইট। রিপোর্ট অনুসারে, 400M-এ “পর্নোগ্রাফিক ছবি, বর্ণবাদী অপবাদ এবং ক্ষতিকারক সামাজিক স্টেরিওটাইপ সহ বিস্তৃত অনুপযুক্ত বিষয়বস্তুর” লিঙ্ক রয়েছে।

যদিও স্ট্যানফোর্ড রিপোর্টের সহ-লেখকরা উল্লেখ করেছেন যে আপত্তিকর বিষয়বস্তু অপসারণ করা কঠিন হবে এবং CSAM-এর উপস্থিতি অপরিহার্যভাবে ডেটাসেটে প্রশিক্ষিত মডেলের আউটপুটকে প্রভাবিত করে না, LAION বলে যে এটি LAION-5B সাময়িকভাবে অফলাইনে নিয়ে যাবে।

স্ট্যানফোর্ড রিপোর্টে সুপারিশ করা হয়েছে যে LAION-5B-তে প্রশিক্ষিত মডেলগুলি “যখন সম্ভব বন্ধ করা উচিত এবং বিতরণ বন্ধ করা উচিত।” সম্ভবত সম্পর্কিত, এআই স্টার্টআপ রানওয়ে সম্প্রতি সরানো হয়েছে হাগিং ফেস এআই হোস্টিং প্ল্যাটফর্মের স্ট্যাবল ডিফিউশন 1.5 মডেল; আমরা আরও তথ্যের জন্য কোম্পানির সাথে যোগাযোগ করেছি। (2023 সালে রানওয়ে স্থিতিশীলতা AI এর সাথে অংশীদারিত্ব করেছে, যেটি স্টেবল ডিফিউশনের পিছনে রয়েছে, মূল স্টেবল ডিফিউশন মডেলকে প্রশিক্ষণে সহায়তা করতে।)

নতুন Re-LAION-5B ডেটাসেট থেকে, যেটিতে প্রায় 5.5 বিলিয়ন টেক্সট-ইমেজ জোড়া রয়েছে এবং এটি একটি Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছিল, LAION বলে যে মেটাডেটা তৃতীয় পক্ষের দ্বারা LAION-5B থেকে বিদ্যমান ফাইলগুলিকে সরিয়ে দিয়ে পরিষ্কার করার জন্য ব্যবহার করা যেতে পারে। সংশ্লিষ্ট অবৈধ বিষয়বস্তু।

LAION জোর দেয় যে এর ডেটাসেটগুলি গবেষণার উদ্দেশ্যে – বাণিজ্যিক নয় – উদ্দেশ্যে। কিন্তু ইতিহাস যদি কোনো ইঙ্গিত হয়, তবে তা কিছু সংস্থাকে বাধা দেবে না। স্থিতিশীলতা AI ছাড়াও, Google ইতিমধ্যেই LAION ডেটাসেটগুলিকে তার ইমেজ জেনারেশন মডেলগুলিকে প্রশিক্ষণ দিতে ব্যবহার করেছে৷

“মোট, 2,236টি লিঙ্ক (সন্দেহজনক CSAM-এর জন্য) আমাদের অংশীদারদের দেওয়া লিঙ্ক এবং ছবির হ্যাশ তালিকার সাথে মিলে যাওয়ার পরে সরানো হয়েছে,” LAION পোস্টে অব্যাহত রেখেছে। “এই লিঙ্কগুলির মধ্যে 2023 সালের ডিসেম্বরে স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি রিপোর্ট দ্বারা পাওয়া 1,008টি লিঙ্কও রয়েছে… আমরা দৃঢ়ভাবে সমস্ত গবেষণা ল্যাবরেটরি এবং সংস্থাগুলিকে জোরালোভাবে অনুরোধ করছি যেগুলি এখনও পুরানো LAION-5B ব্যবহার করছে যত তাড়াতাড়ি সম্ভব Re-LAION-ডেটাসেট 5B-তে স্থানান্তরিত হতে সম্ভব।”

Source link

Share

Don't Miss

সাহসী এবং সুন্দর: টেলরের উপর ব্রুক চোকস যখন তারা গোপনে একে অপরকে আকর্ষণ করে?

সাহসী এবং সুন্দর নিয়ে আসে ব্রুক লোগান এবং টেলর হেইস আবার একসাথে রিজ ফরেস্টারের দৃষ্টি আকর্ষণ করার জন্য, যখন সিবিএস সোপ অপেরা দুই...

জেনারেল হাসপাতাল সাপ্তাহিক স্পয়লার বিক্রয়: লাকি ড্রপস এ বোম্বশেল

জেনারেল হাসপাতাল spoilers নতুন সাপ্তাহিক প্রচারমূলক প্রোগ্রাম লাকি স্পেন্সার একটি বড় বোমা ফেলা। এদিকে, কেউ ভয় পায় যখন অন্য কেউ অসাবধানতাবশত এবিসি দিনের...

Related Articles

এফটিএক্স ক্রিপ্টোকারেন্সি এক্সচেঞ্জ বিনান্স এবং এর প্রাক্তন সিইও ঝাওকে $1.8 বিলিয়নের জন্য মামলা করেছে

Binance-এর প্রতিষ্ঠাতা Changpeng Zhao, 16 জুন, 2022-এ প্যারিসের পোর্টে দে ভার্সাই প্রদর্শনী...

লাইভ: ইসরায়েল গাজা শিবিরে মারাত্মক আক্রমণ শুরু করে এবং ইয়েমেন থেকে ছোড়া ক্ষেপণাস্ত্র বাধা দেয়

ফিলিস্তিনি চিকিৎসা কর্মকর্তারা সোমবার বলেছেন, মধ্য গাজা উপত্যকায় একটি বাস্তুচ্যুত পরিবারের একটি...

জনসংখ্যাগত সংকটের মধ্যে শিশুদের জন্য চীনের ধাক্কায় প্রকৃত প্রণোদনার অভাব রয়েছে

1 জানুয়ারী, 2024, চীনের লিয়ানিউঙ্গাংয়ের ডংফাং হাসপাতালে একজন চিকিৎসা পেশাদার নবজাতক শিশুদের...

হাইতির গভর্নিং কাউন্সিল চলমান অস্থিরতার মধ্যে প্রধানমন্ত্রীকে প্রতিস্থাপন করবে

হাইতির ট্রানজিশনাল কাউন্সিল পাঁচ মাস পর প্রধানমন্ত্রী গ্যারি কনিলকে অপসারণের সিদ্ধান্ত নিয়েছে,...