ডিপসিক: ওপেন সোর্স সুপার-ইন্টেলিজেন্ট ল্যাঙ্গুয়েজ মডেল

ডিপসিক পরিচিতি

ডিপসিক হলো চীনের হাই-ফ্লায়ার কোম্পানির অধীনস্থ একটি অত্যাধুনিক এআই গবেষণা ল্যাব, যেটি ওপেন সোর্স লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) বিকাশে অগ্রণী ভূমিকা রাখছে। ২০২৩ সালে প্রতিষ্ঠিত হওয়ার পর থেকে ডিপসিক-সি১ (কোডিং মডেল), ডিপসিক-ভি সিরিজ এবং ডিপসিক-আর১ (রিজনিং মডেল) প্রকাশ করে এআই জগতে সাড়া ফেলে দিয়েছে।

কিভাবে কাজ করে?

ডিপসিকের মূল শক্তি এর মিক্সচার অফ এক্সপার্টস (MoE) আর্কিটেকচারে। এটি ৬৭১ বিলিয়ন প্যারামিটার নিয়ে গঠিত, কিন্তু প্রতিটি টোকেন প্রসেসিংয়ে মাত্র ৩৭ বিলিয়ন প্যারামিটার সক্রিয় হয়। এই স্পার্স অ্যাক্টিভেশন মেকানিজম জিপিইউ রিসোর্সের ব্যবহার ৮০% পর্যন্ত কমায়।

কি টেকনোলজি (Key Technologies):

মাল্টি-হেড লেটেন্ট অ্যাটেনশন (MLA): কিভ্যালু ক্যাশে মেমরি ৫০% কমিয়ে দীর্ঘ টেক্সট প্রসেসিং সম্ভব করে।
DeepSeekMoE: ২৫৬টি বিশেষজ্ঞ এক্সপার্ট নোডের মধ্যে শুধুমাত্র ৮টি একটিভ হয়, যা কম্পিউটেশনাল খরচ নিয়ন্ত্রণ করে।
FP8 মিক্সড প্রিসিশন: বিশ্বের প্রথম সুপার-স্কেল মডেলে FP8 ব্যবহার করে ট্রেনিং স্পিড ২.৩x বাড়ানো হয়েছে।

ট্রেনিং প্রক্রিয়া

ডিপসিক-ভি৩-এর ট্রেনিংয়ে ব্যবহৃত হয়েছে ১৪.৮ ট্রিলিয়ন টোকেন ডেটা, যা GPT-4-এর চেয়ে ৩ গুণ বেশি। ট্রেনিং প্রক্রিয়ার মূল পর্যায়গুলো হলো:

১. প্রি-ট্রেনিং

ডেটা কারিকুলাম: ওয়েব টেক্সট (৩২%), কোড (২৮%), গণিত (১৯%), বই (১২%), বৈজ্ঞানিক পেপার (৯%)।
অপ্টিমাইজেশন: ডুয়েল পাইপলাইন প্যারালেলিজম এবং NVLink কমিউনিকেশন অপ্টিমাইজেশনের মাধ্যমে প্রতি ট্রিলিয়ন টোকেন প্রসেসিংয়ে মাত্র ১৮০,০০০ H100 GPU ঘণ্টা লাগে।

২. পোস্ট-ট্রেনিং

সুপারভাইজড ফাইন-টিউনিং (SFT): ১.৫ মিলিয়ন ইনস্ট্রাকশন ডেটাসেট ব্যবহার।
রিইনফোর্সমেন্ট লার্নিং (RL): DeepSeek-R1 মডেলে শুধুমাত্র RL ব্যবহার করে চেইন-অফ-থট ক্ষমতা উন্নীত করা হয়েছে।

অন্যান্য মডেলের সাথে তুলনা

মেট্রিক	ডিপসিক-ভি৩	GPT-4o	ক্লড ৩.৫	ললামা-৩ ৪০৫বি
MMLU (জ্ঞান)	৮৮.৫%	৮৭.২%	৮৮.৩%	৮৫.১%
MATH-500 (গণিত)	৯০.২%	৭৪.৬%	৭৮.৩%	৮২.০%
LiveCodeBench (কোড)	৬৫.৯%	৩৪.২%	৩৮.৯%	৪১.৯%
ট্রেনিং খরচ	$৫.৫M	$১০০M+	N/A	$২০M+

বিশেষ সক্ষমতা:

গাণিতিক যুক্তি: AIME ২০২৪-এ ৩৯.২% স্কোর (ক্লড ৩.৫: ১৬%)।
বহুভাষিক দক্ষতা: চীনা ভাষায় GPT-৪o-কে ছাড়িয়ে গেছে।
দীর্ঘ স্মৃতিশক্তি: ১২৮K টোকেন কনটেক্সট উইন্ডো।

সামাজিক প্রভাব

কস্ট ইফিশিয়েন্সি: GPT-৪-এর তুলনায় ৯৫% কম খরচে সমপর্যায়ের পারফরম্যান্স।
নৈতিক বিতর্ক: কিছু দেশ ডিপসিক নিষিদ্ধ করেছে ডেটা প্রাইভেসি উদ্বেগের কারণে

ডিপসিক প্রমাণ করেছে যে অত্যাধুনিক এআই বিকাশে বিশাল বাজেটের প্রয়োজন নেই। MoE আর্কিটেকচার, FP8 অপ্টিমাইজেশন এবং RL-ভিত্তিক ট্রেনিং পদ্ধতির সমন্বয়ে এটি উন্মুক্ত উৎসের মডেলের নতুন মান নির্ধারণ করেছে। গণিত ও কোডিংয়ে এর অসামান্য পারফরম্যান্স একে করে তুলেছে গবেষক, ডেভেলপার এবং সাধারণ ব্যবহারকারীদের জন্য একটি শক্তিশালী সরঞ্জাম।