TheInfoPort
tech

ডিপসিক: ওপেন সোর্স সুপার-ইন্টেলিজেন্ট ল্যাঙ্গুয়েজ মডেল

STLRAxis Team

ডিপসিক পরিচিতি

ডিপসিক হলো চীনের হাই-ফ্লায়ার কোম্পানির অধীনস্থ একটি অত্যাধুনিক এআই গবেষণা ল্যাব, যেটি ওপেন সোর্স লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) বিকাশে অগ্রণী ভূমিকা রাখছে। ২০২৩ সালে প্রতিষ্ঠিত হওয়ার পর থেকে ডিপসিক-সি১ (কোডিং মডেল), ডিপসিক-ভি সিরিজ এবং ডিপসিক-আর১ (রিজনিং মডেল) প্রকাশ করে এআই জগতে সাড়া ফেলে দিয়েছে।

কিভাবে কাজ করে?

ডিপসিকের মূল শক্তি এর মিক্সচার অফ এক্সপার্টস (MoE) আর্কিটেকচারে। এটি ৬৭১ বিলিয়ন প্যারামিটার নিয়ে গঠিত, কিন্তু প্রতিটি টোকেন প্রসেসিংয়ে মাত্র ৩৭ বিলিয়ন প্যারামিটার সক্রিয় হয়। এই স্পার্স অ্যাক্টিভেশন মেকানিজম জিপিইউ রিসোর্সের ব্যবহার ৮০% পর্যন্ত কমায়।

কি টেকনোলজি (Key Technologies):

  1. মাল্টি-হেড লেটেন্ট অ্যাটেনশন (MLA): কিভ্যালু ক্যাশে মেমরি ৫০% কমিয়ে দীর্ঘ টেক্সট প্রসেসিং সম্ভব করে।

  2. DeepSeekMoE: ২৫৬টি বিশেষজ্ঞ এক্সপার্ট নোডের মধ্যে শুধুমাত্র ৮টি একটিভ হয়, যা কম্পিউটেশনাল খরচ নিয়ন্ত্রণ করে।

  3. FP8 মিক্সড প্রিসিশন: বিশ্বের প্রথম সুপার-স্কেল মডেলে FP8 ব্যবহার করে ট্রেনিং স্পিড ২.৩x বাড়ানো হয়েছে।

ট্রেনিং প্রক্রিয়া

ডিপসিক-ভি৩-এর ট্রেনিংয়ে ব্যবহৃত হয়েছে ১৪.৮ ট্রিলিয়ন টোকেন ডেটা, যা GPT-4-এর চেয়ে ৩ গুণ বেশি। ট্রেনিং প্রক্রিয়ার মূল পর্যায়গুলো হলো:

১. প্রি-ট্রেনিং

  • ডেটা কারিকুলাম: ওয়েব টেক্সট (৩২%), কোড (২৮%), গণিত (১৯%), বই (১২%), বৈজ্ঞানিক পেপার (৯%)।

  • অপ্টিমাইজেশন: ডুয়েল পাইপলাইন প্যারালেলিজম এবং NVLink কমিউনিকেশন অপ্টিমাইজেশনের মাধ্যমে প্রতি ট্রিলিয়ন টোকেন প্রসেসিংয়ে মাত্র ১৮০,০০০ H100 GPU ঘণ্টা লাগে।

২. পোস্ট-ট্রেনিং

  • সুপারভাইজড ফাইন-টিউনিং (SFT): ১.৫ মিলিয়ন ইনস্ট্রাকশন ডেটাসেট ব্যবহার।

  • রিইনফোর্সমেন্ট লার্নিং (RL): DeepSeek-R1 মডেলে শুধুমাত্র RL ব্যবহার করে চেইন-অফ-থট ক্ষমতা উন্নীত করা হয়েছে।

অন্যান্য মডেলের সাথে তুলনা

মেট্রিকডিপসিক-ভি৩GPT-4oক্লড ৩.৫ললামা-৩ ৪০৫বি
MMLU (জ্ঞান)৮৮.৫%৮৭.২%৮৮.৩%৮৫.১%
MATH-500 (গণিত)৯০.২%৭৪.৬%৭৮.৩%৮২.০%
LiveCodeBench (কোড)৬৫.৯%৩৪.২%৩৮.৯%৪১.৯%
ট্রেনিং খরচ$৫.৫M$১০০M+N/A$২০M+

বিশেষ সক্ষমতা:

  • গাণিতিক যুক্তি: AIME ২০২৪-এ ৩৯.২% স্কোর (ক্লড ৩.৫: ১৬%)।

  • বহুভাষিক দক্ষতা: চীনা ভাষায় GPT-৪o-কে ছাড়িয়ে গেছে।

  • দীর্ঘ স্মৃতিশক্তি: ১২৮K টোকেন কনটেক্সট উইন্ডো।

সামাজিক প্রভাব

  • কস্ট ইফিশিয়েন্সি: GPT-৪-এর তুলনায় ৯৫% কম খরচে সমপর্যায়ের পারফরম্যান্স।

  • নৈতিক বিতর্ক: কিছু দেশ ডিপসিক নিষিদ্ধ করেছে ডেটা প্রাইভেসি উদ্বেগের কারণে

ডিপসিক প্রমাণ করেছে যে অত্যাধুনিক এআই বিকাশে বিশাল বাজেটের প্রয়োজন নেই। MoE আর্কিটেকচার, FP8 অপ্টিমাইজেশন এবং RL-ভিত্তিক ট্রেনিং পদ্ধতির সমন্বয়ে এটি উন্মুক্ত উৎসের মডেলের নতুন মান নির্ধারণ করেছে। গণিত ও কোডিংয়ে এর অসামান্য পারফরম্যান্স একে করে তুলেছে গবেষক, ডেভেলপার এবং সাধারণ ব্যবহারকারীদের জন্য একটি শক্তিশালী সরঞ্জাম।