Home খবর স্ট্যাবল ডিফিউশন প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের পিছনের সংস্থাটি CSAM সরিয়ে দিয়েছে বলে দাবি করে
খবর

স্ট্যাবল ডিফিউশন প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের পিছনের সংস্থাটি CSAM সরিয়ে দিয়েছে বলে দাবি করে

Share
Share

লায়ন, জার্মান গবেষণা সংস্থা যা প্রশিক্ষণের জন্য ব্যবহৃত ডেটা তৈরি করে স্থিতিশীল বিস্তারঅন্যান্য জেনারেটিভ এআই মডেলের মধ্যে রয়েছে মুক্তি একটি নতুন ডেটাসেট যা তিনি বলেছেন যে “সন্দেহজনক শিশু যৌন নির্যাতন সামগ্রী (CSAM) এর পরিচিত লিঙ্কগুলি সম্পূর্ণরূপে পরিষ্কার করা হয়েছে।”

নতুন ডেটাসেট, Re-LAION-5B, আসলে একটি পুরানো ডেটাসেট, LAION-5B-এর পুনঃপ্রকাশ — কিন্তু অলাভজনক ইন্টারনেট ওয়াচ ফাউন্ডেশন, হিউম্যান রাইটস ওয়াচ, কানাডিয়ান সেন্টার ফর চাইল্ড-এর সুপারিশের সাথে বাস্তবায়িত “সমাধান” সহ সুরক্ষা এবং এখন বিলুপ্ত স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি। এটি দুটি সংস্করণে ডাউনলোডের জন্য উপলব্ধ, Re-LAION-5B রিসার্চ এবং Re-LAION-5B রিসার্চ-সেফ (যা অতিরিক্ত NSFW সামগ্রীও সরিয়ে দেয়), উভয়ই পরিচিত – এবং “সম্ভাব্য” – CSAM, এটির হাজার হাজার লিঙ্কের জন্য ফিল্টার করা হয়েছে। LAION কে বলে।

“LAION শুরু থেকেই তার ডেটাসেট থেকে অবৈধ বিষয়বস্তু মুছে ফেলার জন্য প্রতিশ্রুতিবদ্ধ এবং শুরু থেকেই এই লক্ষ্য অর্জনের জন্য উপযুক্ত ব্যবস্থা বাস্তবায়ন করেছে,” LAION একটি বার্তায় লিখেছেন ব্লগ পোস্ট. “LAION কঠোরভাবে নীতি অনুসরণ করে যে অবৈধ বিষয়বস্তু আবিষ্কৃত হওয়ার পরে যত তাড়াতাড়ি সম্ভব সরানো হয়।”

এটি লক্ষ করা গুরুত্বপূর্ণ যে LAION ডেটাসেটে ছবি থাকে না — এবং কখনও ধারণ করেনি — ছবি। পরিবর্তে, এগুলি হল ইমেজ এবং ইমেজ অল্ট টেক্সটের লিঙ্কগুলির সূচী যা LAION নির্বাচন করেছে, সবগুলি একটি থেকে এসেছে ভিন্ন ডেটাসেট — সাধারণ ক্রল — সংগৃহীত ওয়েবসাইট এবং ওয়েব পৃষ্ঠাগুলির।

রি-LAION-5B-এর সূচনাটি স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরির ডিসেম্বর 2023 সালের তদন্তের অনুসরণ করে যা দেখেছে যে LAION-5B – বিশেষ করে LAION-5B 400M নামে একটি উপসেট – সামাজিক এবং জনপ্রিয় মিডিয়া পোস্টগুলি থেকে স্ক্র্যাপ করা অবৈধ ছবির কমপক্ষে 1,679টি লিঙ্ক অন্তর্ভুক্ত করেছে। প্রাপ্তবয়স্কদের সাইট। রিপোর্ট অনুসারে, 400M-এ “পর্নোগ্রাফিক ছবি, বর্ণবাদী অপবাদ এবং ক্ষতিকারক সামাজিক স্টেরিওটাইপ সহ বিস্তৃত অনুপযুক্ত বিষয়বস্তুর” লিঙ্ক রয়েছে।

যদিও স্ট্যানফোর্ড রিপোর্টের সহ-লেখকরা উল্লেখ করেছেন যে আপত্তিকর বিষয়বস্তু অপসারণ করা কঠিন হবে এবং CSAM-এর উপস্থিতি অপরিহার্যভাবে ডেটাসেটে প্রশিক্ষিত মডেলের আউটপুটকে প্রভাবিত করে না, LAION বলে যে এটি LAION-5B সাময়িকভাবে অফলাইনে নিয়ে যাবে।

স্ট্যানফোর্ড রিপোর্টে সুপারিশ করা হয়েছে যে LAION-5B-তে প্রশিক্ষিত মডেলগুলি “যখন সম্ভব বন্ধ করা উচিত এবং বিতরণ বন্ধ করা উচিত।” সম্ভবত সম্পর্কিত, এআই স্টার্টআপ রানওয়ে সম্প্রতি সরানো হয়েছে হাগিং ফেস এআই হোস্টিং প্ল্যাটফর্মের স্ট্যাবল ডিফিউশন 1.5 মডেল; আমরা আরও তথ্যের জন্য কোম্পানির সাথে যোগাযোগ করেছি। (2023 সালে রানওয়ে স্থিতিশীলতা AI এর সাথে অংশীদারিত্ব করেছে, যেটি স্টেবল ডিফিউশনের পিছনে রয়েছে, মূল স্টেবল ডিফিউশন মডেলকে প্রশিক্ষণে সহায়তা করতে।)

নতুন Re-LAION-5B ডেটাসেট থেকে, যেটিতে প্রায় 5.5 বিলিয়ন টেক্সট-ইমেজ জোড়া রয়েছে এবং এটি একটি Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছিল, LAION বলে যে মেটাডেটা তৃতীয় পক্ষের দ্বারা LAION-5B থেকে বিদ্যমান ফাইলগুলিকে সরিয়ে দিয়ে পরিষ্কার করার জন্য ব্যবহার করা যেতে পারে। সংশ্লিষ্ট অবৈধ বিষয়বস্তু।

LAION জোর দেয় যে এর ডেটাসেটগুলি গবেষণার উদ্দেশ্যে – বাণিজ্যিক নয় – উদ্দেশ্যে। কিন্তু ইতিহাস যদি কোনো ইঙ্গিত হয়, তবে তা কিছু সংস্থাকে বাধা দেবে না। স্থিতিশীলতা AI ছাড়াও, Google ইতিমধ্যেই LAION ডেটাসেটগুলিকে তার ইমেজ জেনারেশন মডেলগুলিকে প্রশিক্ষণ দিতে ব্যবহার করেছে৷

“মোট, 2,236টি লিঙ্ক (সন্দেহজনক CSAM-এর জন্য) আমাদের অংশীদারদের দেওয়া লিঙ্ক এবং ছবির হ্যাশ তালিকার সাথে মিলে যাওয়ার পরে সরানো হয়েছে,” LAION পোস্টে অব্যাহত রেখেছে। “এই লিঙ্কগুলির মধ্যে 2023 সালের ডিসেম্বরে স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি রিপোর্ট দ্বারা পাওয়া 1,008টি লিঙ্কও রয়েছে… আমরা দৃঢ়ভাবে সমস্ত গবেষণা ল্যাবরেটরি এবং সংস্থাগুলিকে জোরালোভাবে অনুরোধ করছি যেগুলি এখনও পুরানো LAION-5B ব্যবহার করছে যত তাড়াতাড়ি সম্ভব Re-LAION-ডেটাসেট 5B-তে স্থানান্তরিত হতে সম্ভব।”

Source link

Share

Leave a comment

Leave a Reply

Your email address will not be published. Required fields are marked *

Don't Miss

জ্যাক্সন হেইস 2021 এর ঘটনা, ফিল্মিং শো চলাকালীন সোফিয়া জামোরার উপর ধাক্কা দিয়েছিল এবং থুতু দেয়

ভিডিও সামগ্রী চালান টিএমজেডস্পোর্টস। সঙ্গে লস অ্যাঞ্জেলেস লেকার্সের খেলোয়াড় জেসন হেইস 2021 সালে গ্রেপ্তার হওয়ার আগে ক্ষিপ্ত ছিলেন – মৌখিকভাবে গালিগালাজ এবং তার...

এনভিডিয়া ইন্টেলের পরিবর্তে ডাও জোন্স ইন্ডাস্ট্রিয়াল এভারেজ-এ যোগ দেবে

Nvidia CEO Jensen Huang Gefion সুপারকম্পিউটার লঞ্চ করার সময় কথা বলছেন, যেখানে 23 অক্টোবর, 2024-এ ডেনমার্কের কাস্ট্রুপের ভিলহেলম লরিটজেন টার্মিনালে EIFO এবং NVIDIA-এর...

Related Articles

স্পেনে বন্যা: আবহাওয়া সংস্থা নতুন সতর্কতা জারি করায় পরিষ্কার-পরিচ্ছন্নতার প্রচেষ্টা পঞ্চম দিনে প্রবেশ করেছে

স্প্যানিশ অঞ্চল থেকে রিপোর্টিং ফ্রান্স 24-এর অ্যান্টোনিয়া কেরিগান বলেছেন, “ভারী যন্ত্রপাতি দিয়ে...

কেন ইউরোপে ফ্লাইট সাম্প্রতিক বছরগুলিতে সবচেয়ে সস্তা

28শে জুন, 2024-এ গ্রীসের এথেন্সে অ্যাক্রোপলিসের প্রোপিলিয়া পটভূমিতে দেখা যাচ্ছে বলে একজন...

5 নভেম্বর ঘনিয়ে আসার সাথে সাথে কোম্পানির কনফারেন্স কলগুলিতে ইলেকশনের উল্লেখ করা হয়েছে৷

ভোটাররা 1 নভেম্বর, 2024-এ মার্কিন যুক্তরাষ্ট্রের ফ্লোরিডার টাম্পায় সি. ব্লাইথ অ্যান্ড্রুস জুনিয়র...

ইসরায়েলি হামলার মধ্যেই লেবাননে শিক্ষাবর্ষ শুরু হয়

ইসরায়েলের অব্যাহত হামলা সত্ত্বেও লেবাননে নতুন শিক্ষাবর্ষ শুরু হচ্ছে। কিছু স্কুল আংশিকভাবে...