একজন ডাটা সায়েন্টিস্ট’র যে দক্ষতাগুলো থাকা প্রয়োজন
একজন ডাটা সায়েন্টিস্ট হতে হলে আপনাকে গণিত, প্রোগ্রামিং এবং পরিসংখ্যান এর মতন বিষয়গুলোতে নিজেকে দক্ষ করে তোলার চেষ্টা করতে হবে। কারণ ডাটা সংরক্ষণ, ব্যবহার এবং সঠিক প্রয়োগ নিয়ে প্রযুক্তিতে ডাটা বা তথ্যে বিশাল জগত বিদ্যমান।
পরিসংখ্যান ও সম্ভাব্যতা যাচাই কৌশল
আপনি যদি ডাটা সায়েন্স নিয়ে কাজ করতে চান তাহলে ডাটা বা তথ্যের রহস্য উন্মোচন বা বিষয়ের গভীরতা বুঝার ক্ষমতা ও জ্ঞান থাকা আবশ্যক। একাধিক বিষয় থাকলে তার মধ্যে তুলনামূলক পার্থক্য নির্ণয় এবং অন্তর্নিহিত সম্পর্কের নির্ভরতা নিরূপণ করা। অ্যালগরিদম, অন্তর্নিহিত তথ্য এবং জ্ঞান থেকে একটি সিদ্ধান্তে উপনীত হয়ে পরিসংখ্যানগত তথ্য উপস্থাপন করা। যাতে কোন ব্যবসা কিংবা উদ্যোগটি কতটা সফল হতে পারে কিংবা অতীতে কি অবস্থা ছিল অথবা ভবিষ্যতে সম্ভাবনা কেমন এরকম আরও অনেক রকম বিষয়ে সহজে একটা তথ্যে নির্ভর হওয়া যায়।
বিভিন্ন ধরণের গাণিতিক বিশ্লেষণ ও উপস্থাপন
মেশিন লার্নিং এবং ডাটা সায়েন্স’র বেশিরভাগ মডেলগুলো অপরিচিত কিছু ভেরিয়েবল ওপর অর্থাৎ, ডেরেভেটিভ, গ্রেডিইয়েন্ট, স্টেপ ফাংশন, টেনসর ফাংশন, সিগময়েড ফাংশন, লগিট ফাংশন, ম্যাট্রিক্স, স্কেলার, ভেক্টর, রেলইউ(Rectified Linear Unit) ফাংশন, কস্ট ফাংশন, ফাংশনের সর্বোচ্চ ও সর্বনিম্ন মান’র ওপর নির্ভর করে গড়ে উঠেছে। গাণিতিক বিশ্লেষণে সংশ্লিষ্ট বিষয়গুলো ডাটা বা তথ্য উপাত্ত তৈরিতে ব্যবহার করা।
প্রোগ্রামিং
ডাটা সায়েন্সে পুরো প্রক্রিয়াজুড়েই প্রোগ্রামিং ও সফটওয়্যারের দক্ষতার আধিক্যতা। মূলত প্রারম্ভিক তথ্য কিংবা ডাটাগুলোই পরবর্তীতে কার্যকরী রুপে ভূমিকায় । প্রোগ্রামিং ভাষা পাইথন, জাভা, এসকিউএল, স্কেলা, আর(R) প্রভৃতি ডাটা সায়েন্স’তে ব্যবহার হয়। বিশেষ করে প্রোগ্রামিং ভাষা ‘পাইথন’ ডাটা সায়েন্স’র সকল ক্ষেত্রে ব্যবহার করা যায়, যেমনঃ SQL টেবিল ডাটা ইমপোর্ট করতে পারবেন এবং পাইথন যে কোন ডাটা সেট তৈরি করায় সহায়তা করে।
২০১৬ সালে আমেরিকান প্রতিষ্ঠান ‘ক্রাউড ফ্লাওয়ার’ লিঙ্কডইনে ডাটা সায়েন্স বিষয়ক চাকুরির ৩,৪৯০ টি পোস্টের ওপর গবেষণা কর, তাতে Apache Hadoop কে ডাটা সায়েন্টিস্টদের ক্ষেত্রে দ্বিতীয় গুরুত্বপূর্ণ দক্ষতা হিসেবে উল্লেখ করে। যেখানে চাকুরির বিজ্ঞাপনে যোগ্যতায় ডাটা সায়েন্সে এটি ৪৯ ভাগ রেটিং পায়। আর উল্লেখিত দক্ষতায় SQL ৫৭ ভাগ রেটিং পায়।
ডাটা র্যাংলিং
এই ধাপে ডাটা কিংবা তথ্য আরও গভীরভাবে পর্যবেক্ষণের জন্যে প্রস্তুত করতে পারেন। যেখানে ডাটাগুলো এক প্রক্রিয়া থেকে আরেক প্রক্রিয়ায় পরিবর্তন হয়, অর্থাৎ, ডাটাগুলোর ধাচ বা কাঠামো পুনর্বিন্যাস করার উপায়। বিভিন্ন উৎস থেকে ডাটা সংগ্রহ করে নির্দিষ্ট করে যাতে তথ্য সঠিক সময়ে বাস্তবায়ন করায় সহজ হয়। এতে করে তথ্য প্রক্রিয়া, তথ্য সঠিকমত নেয়া অল্প সময়ে সম্ভব হয়। এতে ডাটা সায়েন্টিস্টরা ডাটা পরিস্কার করার কাজের থেকে তা অ্যানালাইসিস’র বিষয়ে গুরুত্ব আরও দিতে পারে। ফলশ্রুতিতে সঠিক ডাটা নিয়ে সিদ্ধান্ত আসা দ্রুত হয়।
ডাটাবেজ ম্যানেজমেন্ট
সম্পাদনা, সূচক এবং সন্নিবেশ’র মতন অনেকগুলো কাজের সমন্বয় ডাটাবেজ ম্যানেজমেন্ট। ডিবিএমএস ( ডাটাবেজ ম্যানেজমেন্ট সিস্টেম ) একটি অ্যাপ্লিকেশন থেকে ডাটা বা তথ্য প্রদানের অনুরোধ গ্রহণ করে এবং অপারেটিং সিস্টেম(OS) কে নির্দিষ্ট তথ্যটি প্রেরণের নির্দেশ দেয়। ডাটাবেজ ম্যানেজমেন্ট সিস্টেম তথ্য সংরক্ষণ ও যেকোন সময়ে তা পুনরদ্ধারে কাজ করে। একই সময়ে একাধিক ব্যবহারকারীর তথ্য সুচারুভাবে আদান-প্রদান ও নিয়ন্ত্রণে ভূমিকা থাকে। তথ্য যাচাই, ডাটা ফরম্যাট, রেকর্ড এবং ফাইল বিন্যাস নিয়ন্ত্রণ করে। MySQL, Oracle, SQL Server সুপরিচিত কিছু ডাটাবেজ ম্যানেজমেন্ট সিস্টেম।
ডাটা আর্কিটেকচার
ডাটা বা তথ্য বিন্যাসের নিয়ম, মডেল এবং মানদণ্ডের একটি সমন্বিত রুপ ডাটা আর্কিটেকচার। ডাটা সায়েন্টিস্টদের তথ্য বা ডাটা সংগ্রহ, সংরক্ষণ, সন্নিবেশ, নিয়ন্ত্রণ এবং সময় অনুযায়ী তা কিভাবে ব্যবহার করতে হয় সেই অবস্থা একীভূত থাকে।
ডাটা মডেল
যখন অনেক ডাটা কাঠামোগতভাবে থাকেনা এবং একটি ডাটা আরেকটির সাথে লজিক্যালগত সম্পর্কিত হয় তখন ডাটা অ্যানলাইসিস করে অনুমানমুলক একটি মডেলে ধাপ অনুযায়ী তথ্য বিবরণ দেয়। ডাটা মডেলের অধীনে Attribute, Relationships, integrity rules এর মতন বিষয় পরে। ডাটা আর্কিটেকচারের এই উপক্ষেত্র ডাটা সায়েন্স প্রতিষ্ঠানের ডেভেলপার,ডিজাইনার এবং প্রশাসনের মাঝে পরস্পরের একীভূত কার্যক্রম ভালো করে।
তথ্য গবেষণা ও উপস্থাপনা
কোথায় ডাটা বা তথ্যে গুরুত্ব দেয়া উচিত, তথ্যের পরিমাণ এবং অন্তর্নিহিত সম্পর্ক, কি ট্রেন্ড এখন, ক্লাইন্ট রিপোর্ট, মার্কেট ব্যবস্থা নির্দিষ্টভাবে এখানে উঠে আছে। বিভিন্ন চার্ট, ছবির মাধ্যমে এতে এ ধাপ থেকে পরবর্তীতে কি পদক্ষেপ নেয়া উচিত প্রতিষ্ঠানের সামগ্রিক উন্নয়নের জন্যে তা নির্ধারণ করা যায়।
অ্যালগোরিদম
সমস্যা সমাধানের সামষ্টিক পথ প্রক্রিয়া অ্যালগোরিদম। ডাটা সায়েন্টিস্টরা কিভাবে একটি সমস্যা কম্পিউটারে নির্দিষ্ট কিছু নিয়ম অনুসরণ করে সমাধান করতে পারে তা অ্যালগোরিদম সহজ করে দেয়। কিভাবে মেশিন ব্যবহার করে গুরুত্বপূর্ণ কাজগুলো বিস্তারিতভাবে পর্যবেক্ষণ ও সম্পন্ন করা যায়।
মেশিন লার্নিং
যদি আপনার প্রতিষ্ঠানে বৃহৎ পর্যায়ের ডাটা নিয়ে কাজ করার প্রয়োজন হয় অথবা সবকিছু ডাটা নির্ভর হয় তাহলে মেশিন লার্নিং হচ্ছে উপযুক্ত ব্যবস্থা। এ পদ্ধতি ডাটা বা তথ্য মডেলিং এবং ফলাফল ধারণ করে। মেশিন লার্নিংয়ের ব্যবহারটা কেমন ডাটা সায়েন্সে? ফ্রড ও রিস্ক নিরূপণ ও নিয়ন্ত্রণ করে। ফেশিয়াল ও ভয়েস রিকগনেশন, ভাষান্তর এ বিষয়ে ভালো কার্যকর ভূমিকা রাখে । এয়ারলাইন, স্বাস্থ্য, শিক্ষা, কৃষিতে তথ্য এবং অবস্থার ভিত্তিতে অনেক কিছু করার সুযোগ আছে। ডাটা ডাটা সায়েন্সের জন্যে মেশিন লার্নিংয়ে এলগোরিদম অন্তর্ভুক্ত থাকে যা এমএল(ML) তে কেন্দ্রভূত থাকে। ডাটা সায়েন্স’তে মেশিন লার্নিংয়ে টেনসর ফ্লো, নেইভ বেইস, K-nearest neighbors, Random forest ব্যবহার হয়।
ডিপ লার্নিং
উচ্চ মাত্রার সমস্যাগুলো নিরূপণ এবং সেই তথ্য বা ডাটাগুলো থেকে নতুন সমাধান খুঁজে পাওয়া ও তা প্রয়োগ করে গুণগত মডেলে কার্যকরভাবে ডাটা পাওয়া ডিপ লার্নিং পর্যায়ে পরে। ইমেজ প্রোসেসিং এবং সিগন্যাল প্রোসেসিংয়ে সাধারণত ডাটাগুলো পাওয়া যায়।
ক্লাউড কম্পিউটিং
ডাটা সায়েন্স একটি বৃহৎ পরিসর, এতে তথ্য বা ডাটা সংরক্ষণ, নিরাপত্তা ও ঠিক সময়ে তা ব্যবহারের বিষয় চলে আসে তাই সহজে ডাটা ব্যবহারের সুবিধা ও নিয়ন্ত্রণে ক্লাউড কম্পিউটিং গুরুত্বপূর্ণ। ব্যবসা প্রতিষ্ঠান কিংবা বিভিন্ন সংস্থায় প্রতিদিন ডাটা সংরক্ষণ ও ব্যবহার এবং নিরীক্ষণ করা হয় তাই সুরক্ষার বিষয়ে এ প্রযুক্তি। এজন্যে ডাটাবেজ প্রবেশ, ফ্রেমওয়ার্ক, প্রোগ্রামিং ভাষা ও নিয়ন্ত্রণের বিভিন্ন টুলের সুবিধা ও নিরাপত্তা প্রদান করায় ডাটা সায়েন্টিস্ট সকলের মাঝে অ্যামাজন ওয়েব সার্ভার, গুগল ক্লাউড, ওরাকল ক্লাউড এত জনপ্রিয় হয়ে উঠেছে। শুধুমাত্র পাবলিক ক্লাউডের বিশ্ব মার্কেট বর্তমানে ২১৪ বিলিয়ন ডলার।
ন্যাচারাল ল্যাঙ্গুয়েজ প্রোসেসিং
ন্যাচারাল ল্যাঙ্গুয়েজ প্রোসেসিং (NLP) কম্পিউটার বিজ্ঞান, ভাষাতত্ত্ব এবং মেশিন লার্নিং পদ্ধতি ব্যবহার করে সম্পন্ন হয়। সাধারণত তথ্য বা ডাটা সুগঠিত থাকেনা , NLP অ্যাপ্লিকেশন টেক্সট বিন্যাস, পর্যবেক্ষণ ও বিষয়ের ওপর ভিত্তি করে কাজ করে।
সেক্টরভিত্তিক দক্ষতা
একজন ডাটা সায়েন্টিস্ট কে সে যেখানে কাজ করে সে প্রতিষ্ঠানের কর্ম পরিধি এবং ইন্ডাস্ট্রি সম্পর্কে বিশদ ধারণা থাকতে হবে। এতে করে ভেতরগত অবস্থা এবং বাজার অ্যানালাইসিস সম্পর্কে কার্যক্রম পরিচালনা সহজ হয়। ফলে কি রাখা প্রয়োজন আর কি নয় তার ব্যাপারে সিদ্ধান্তে উপনীত হওয়া যায়।
মাইক্রোসফট এক্সেল
মাইক্রোসফট অফিস টুলটি প্রারম্ভিক অবস্থায় ডাটা সায়েন্টিস্টদের জন্যে ডাটা বা তথ্য সন্নিবেশের বেশ সহজ এবং জনপ্রিয়। এক্সেল শিটের সাথে পাইথন সংযোগ দেয়া এবং ডাটা নিয়ন্ত্রণের কাজ করা সম্ভব। আপনি যদি নন – টেকনিক্যাল হয়ে থাকুন তাহলে মাইক্রোসফট এক্সেল ব্যবহার করে তথ্য সংরক্ষণ করতে পারেন। নির্দিষ্ট নাম, টেবিল, চার্ট একীভূত করে ডাটা রাখতে পারেন। একই রকম মান একাধিক বার আসলে তাও নির্ধারণ করার সুবিধা আছে যেমন নতুন করে তথ্য রাখতেও পারেন।