top of page

ডাটা প্রসেসিং


ree

মেশিন লার্নিং এর সব চাইতে বড় একটি অংশ হচ্চে ডাটা। কারণ মেশিন লার্নিং এর আলগোরিদম ডাটা বিশ্লেষণ করে আমাদের ফলাফল দেয়। আমরা যত বেশি ডাটা সংগ্রহ করতে পারবো আমাদের মডেলটি আরো ভালো করে প্রেডিক্ট করতে পারবে।

মেশিন লার্নিং এর মাধ্যমে কোনো সমস্যা সমাধান করতে আমাদের দরকার সঠিক ডাটা। আমাদের খুব ভালো করে দেখতে হবে ডাটা তে সঠিক ফিচারস গুলো আছে কিনা, সঠিক ফরম্যাটে আছে কিনা।

রিয়েল ওয়ার্ল্ড ডেটা বিভিন্ন উৎস এবং প্রসেস থেকে সংগৃহীত হয় এবং এটিতে ডেটাসেটের গুণমানের সাথে অনিয়ম বা ভুল ডেটা থাকতে পারে।

সাধারণত যে কারণ গুলোর জন্য ডেটা মানের সমস্যা উদ্ভূত হয় সেগুলো হলো

১. অসম্পূর্ণ: ডেটা গুণাবলী অভাব বা অনুপস্থিত মান অনুপস্থিত থাকতে পারে

২. নয়জী : তথ্য ভুল রেকর্ড থাকতে পারে

৩. অসঙ্গত: তথ্য দ্বন্দ্ব রেকর্ড বা বিচ্ছিন্নতা তথ্য থাকতে পারে

একটি মেশিন লার্নিং অ্যালগরিদম জন্য তথ্য প্রস্তুত করার প্রক্রিয়া তিন ধাপে সংক্ষিপ্ত করা যেতে পারে। ধাপ গুলো হচ্চে :

১. ডাটা সিলেকশন

২. ডাটা প্রিপ্রসেসিং

৩. ট্রান্সফর্ম ডাটা

ডাটা সিলেকশন : ডাটা সিলেকশন এ আমাদের মাথায় রাখতে হবে আমরা কি সমস্যা নিয়ে কাজ করছি এবং সমস্যা গুলো সমাধানের জন্য আমাদের কি কি ডাটা লাগতে পারে। ডাটা সংগ্রহ এর সময় কিছু ডাটা থাকতে পারে যা অপ্রয়োজনীয়।আবার দেখা যেতে পারে কিছু ডাটা নাই।

তাই ডাটা সিলেক্টন এ আমাদের খুব সাবধান থাকতে হবে। আমাদের ভালো করে খেয়াল রাখতে হবে সবগুলো গুরুত্বপূর্ণ ডাটা আছে কি না। যে সব ডাটা আমাদের প্রয়োজন নাই সে সব ডাটা গুলো কে বাদ দিয়ে দিতে হবে। আমাদের নোট করে রাখা উচিত কেন বাদ দেয়া হয়েছিল। বাদ কৃত ডাটা গুলো আমরা আলাদা করে সংরক্ষণ করতে পারি ভবিৎষতের জন্য।

আমাদের সমস্যা এবং সমস্যা সমাধানে প্রয়োজনীয় ডাটা এর কথা মাথায় রেখে ডাটা নির্বাচন করতে

হবে

ডাটা প্রিপ্রসেসিং : ডাটা সিলেকশন করা হয়ে গেলে, আমাদের মাথায় রাখতে হবে ডাটা গুলো আমরা কি ভাবে বেবহার করবো। এটি একটি ফর্ম এ নিয়ে যাবে যেখানে আমরা ডাটা গুলো দিয়ে কাজ করতে পারবো।

সাধাৰণতো ডাটা প্রসেসিং এর ৩ টি ধাপ রয়েছে।

১. ফরম্যাটিং

২. ক্লাইননিং

৩. স্যাম্পলিং

ফর্মাটেটিং : আপনার নির্বাচিত তথ্যটি এমন ফর্ম্যাটে নাও থাকতে পারে যা আপনার সাথে কাজ করার জন্য উপযুক্ত। তাই ডাটা কে উপযুক্ত ফরম্যাটে আনতে হবে।

ক্লাইননিং: ক্লিনিং ডাটা বলতে অনেক সময় ডাটা তে তথ্য অনুপস্থিত থাকতে পারে। যদি কোনো ডাটা অনুপস্থিত থাকে সে ক্ষেত্রে আমরা

১. অনুপস্থিত ডাটা এর রেকর্ড তা মুছে ফেলতে পারি।

২. অনুপস্থিত ডাটা এর স্থলে আমরা একটু ডামি ভ্যালু দিতে

পারি।

৩. অনুপস্থিত তথ্টি যদি সংখ্যাসূচক হয়, তাহলে আমরা ডাটা এর গড় কে বেবহার করতে পারি অনুপস্থিত তথ্য এর স্থলে।

৪. প্রত্যাশিত মান সঙ্গে অনুপস্থিত মান প্রতিস্থাপন করার জন্য একটি রিগ্রেশন পদ্ধতি ব্যবহার করা যেতে পারে।

স্যাম্পলিং : অনেক সময় দেখা যাই কোনো সমস্যা তে অনেক রকম ডাটা পাওয়া যাই. কিন্তু যত বেশি ডাটা তা কম্পিউটিং টাইম বেশি নিতে পারে। একটি বড় কম্পিউটিং টাইম আর মেমরি লাগতে পারে। আমাদের পুরো ডাটা সেট এর মদ্দে কিছু ডাটা আমরা সম্প্লেয়িং হিসেবে রেখে দিতে পারি যা পরবর্তীতে মডেল টি পরীক্ষা করতে সাহায্য করতে পারে।

ট্রান্সফর্ম ডাটা : ট্রান্সফর্ম ডাটা হচ্চে আমাদের প্রয়োজনে আমরা আমাদের প্রেপ্রোসিসিইং ডাটা গুলো কে বিভিন্ন ফর্ম এ রূপান্তর করতে পারি। এর মাধ্যমে আমরা ডাটা এর সাইজ কমাতে পারি। সহজে ডাটা কে হ্যান্ডেল করতে পারি।

তিনটি ট্রান্সফরমেশন ডাটা হলো

১. স্কেলিং

২. ডিকম্পোসিশন

৩. অগ্গ্রেগেশন

স্কেলিং : ডেটা স্কেলিং একটি আদর্শ মডেল ডেটা তৈরির একটি প্রক্রিয়া যাতে প্রশিক্ষণ উন্নত, সঠিক এবং দ্রুততর হয়। স্কেলিং এর মাধ্যমে আমরা ফীচার গুলো কে একটি সমান স্কেল ০ থেকে ১ এর মদদে নিয়ে আস্তে পারি। স্কেলিং অনেক ভাবেই করা যাই।তার মধ্যে স্ট্যান্ডের ডিভিয়েশন , নোমালিজিওন

ডিকম্পোসিশন : অনেক সময় আমাদের ফীচার গুলো অনেক কমপ্লেক্স হয়ে যাই যেমন তারিখ।

আমরা যদি বলি জানুয়ারী এর কোন দিন এ সব চাইতে বেশি বৃষ্টি হবে। এখানে আমাদের ফীচার অনেক গুলো। যেমন তারিক, মাস এবং বছর। আমরা ফীচার গুলো ডিকম্পোসিশন করে শুদু তারিক নিয়ে কাজ করতে পারি। এতে আমাদের মডেলটির কমপ্লেক্সসিটি কমবে। ডিকম্পোসিশন এর মদদে রয়েছে ডিমেন্টিং রিডাকশন। অনেক ডিমেন্টিং এর ফীচার কে ২d তে উপস্থাপন করা যাই.

অগ্গ্রেগেশন : এখানে আমরা আমাদের ট্রাইং ডাটা সেট কে কিছু গ্রুপ এ ভাগ করে ভ্যালু গুলো স্টোরে করি। যেমন গত 20 বছরে একটি রেস্তোরাঁ চেইনয়ের দৈনিক রাজস্ব সংখ্যাগুলি মাসিক উপার্জনে সংখ্যার আকার করলে আমাদের এটি ডাটা হ্রাস করতে সাহায্য করে।

রেফারেন্স : Azure machine learning documantation ,

Siraj raval(Data processing)



Comments


Post: Blog2_Post
bottom of page