ডিপসিক হলো চীনের হাই-ফ্লায়ার কোম্পানির অধীনস্থ একটি অত্যাধুনিক এআই গবেষণা ল্যাব, যেটি ওপেন সোর্স লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) বিকাশে অগ্রণী ভূমিকা রাখছে। ২০২৩ সালে প্রতিষ্ঠিত হওয়ার পর থেকে ডিপসিক-সি১ (কোডিং মডেল), ডিপসিক-ভি সিরিজ এবং ডিপসিক-আর১ (রিজনিং মডেল) প্রকাশ করে এআই জগতে সাড়া ফেলে দিয়েছে।
ডিপসিকের মূল শক্তি এর মিক্সচার অফ এক্সপার্টস (MoE) আর্কিটেকচারে। এটি ৬৭১ বিলিয়ন প্যারামিটার নিয়ে গঠিত, কিন্তু প্রতিটি টোকেন প্রসেসিংয়ে মাত্র ৩৭ বিলিয়ন প্যারামিটার সক্রিয় হয়। এই স্পার্স অ্যাক্টিভেশন মেকানিজম জিপিইউ রিসোর্সের ব্যবহার ৮০% পর্যন্ত কমায়।
মাল্টি-হেড লেটেন্ট অ্যাটেনশন (MLA): কিভ্যালু ক্যাশে মেমরি ৫০% কমিয়ে দীর্ঘ টেক্সট প্রসেসিং সম্ভব করে।
DeepSeekMoE: ২৫৬টি বিশেষজ্ঞ এক্সপার্ট নোডের মধ্যে শুধুমাত্র ৮টি একটিভ হয়, যা কম্পিউটেশনাল খরচ নিয়ন্ত্রণ করে।
FP8 মিক্সড প্রিসিশন: বিশ্বের প্রথম সুপার-স্কেল মডেলে FP8 ব্যবহার করে ট্রেনিং স্পিড ২.৩x বাড়ানো হয়েছে।
ডিপসিক-ভি৩-এর ট্রেনিংয়ে ব্যবহৃত হয়েছে ১৪.৮ ট্রিলিয়ন টোকেন ডেটা, যা GPT-4-এর চেয়ে ৩ গুণ বেশি। ট্রেনিং প্রক্রিয়ার মূল পর্যায়গুলো হলো:
ডেটা কারিকুলাম: ওয়েব টেক্সট (৩২%), কোড (২৮%), গণিত (১৯%), বই (১২%), বৈজ্ঞানিক পেপার (৯%)।
অপ্টিমাইজেশন: ডুয়েল পাইপলাইন প্যারালেলিজম এবং NVLink কমিউনিকেশন অপ্টিমাইজেশনের মাধ্যমে প্রতি ট্রিলিয়ন টোকেন প্রসেসিংয়ে মাত্র ১৮০,০০০ H100 GPU ঘণ্টা লাগে।
সুপারভাইজড ফাইন-টিউনিং (SFT): ১.৫ মিলিয়ন ইনস্ট্রাকশন ডেটাসেট ব্যবহার।
রিইনফোর্সমেন্ট লার্নিং (RL): DeepSeek-R1 মডেলে শুধুমাত্র RL ব্যবহার করে চেইন-অফ-থট ক্ষমতা উন্নীত করা হয়েছে।
মেট্রিক | ডিপসিক-ভি৩ | GPT-4o | ক্লড ৩.৫ | ললামা-৩ ৪০৫বি |
---|---|---|---|---|
MMLU (জ্ঞান) | ৮৮.৫% | ৮৭.২% | ৮৮.৩% | ৮৫.১% |
MATH-500 (গণিত) | ৯০.২% | ৭৪.৬% | ৭৮.৩% | ৮২.০% |
LiveCodeBench (কোড) | ৬৫.৯% | ৩৪.২% | ৩৮.৯% | ৪১.৯% |
ট্রেনিং খরচ | $৫.৫M | $১০০M+ | N/A | $২০M+ |
গাণিতিক যুক্তি: AIME ২০২৪-এ ৩৯.২% স্কোর (ক্লড ৩.৫: ১৬%)।
বহুভাষিক দক্ষতা: চীনা ভাষায় GPT-৪o-কে ছাড়িয়ে গেছে।
দীর্ঘ স্মৃতিশক্তি: ১২৮K টোকেন কনটেক্সট উইন্ডো।
কস্ট ইফিশিয়েন্সি: GPT-৪-এর তুলনায় ৯৫% কম খরচে সমপর্যায়ের পারফরম্যান্স।
নৈতিক বিতর্ক: কিছু দেশ ডিপসিক নিষিদ্ধ করেছে ডেটা প্রাইভেসি উদ্বেগের কারণে
ডিপসিক প্রমাণ করেছে যে অত্যাধুনিক এআই বিকাশে বিশাল বাজেটের প্রয়োজন নেই। MoE আর্কিটেকচার, FP8 অপ্টিমাইজেশন এবং RL-ভিত্তিক ট্রেনিং পদ্ধতির সমন্বয়ে এটি উন্মুক্ত উৎসের মডেলের নতুন মান নির্ধারণ করেছে। গণিত ও কোডিংয়ে এর অসামান্য পারফরম্যান্স একে করে তুলেছে গবেষক, ডেভেলপার এবং সাধারণ ব্যবহারকারীদের জন্য একটি শক্তিশালী সরঞ্জাম।