আপনি কি রোবট টেক্সট বা robot.txt ফাইল সম্পর্কে জানতে চান? যে বিষয়টি কি, কিভাবে কাজ করে এবং কেন এর প্রয়োজন হয়?
একজন ব্লগার বা ডিজিটাল মার্কেটার হয়েও বিষয়টি সম্পর্কে আপনার যদি পরিস্কার ধারণা না থাকে তাহলে আপনি সঠিক জায়গায় এসেছেন।
বিভিন্ন রকমের ফাইল দিয়ে তৈরি হয় পূর্ণাঙ্গ একটি ওয়েবসাইট। ফাইলগুলোর মধ্যে রোবটস টেক্সট নামের এই ফাইলটিও অন্তর্ভূক্ত আছে।
জেনে খুশি হবেন – এটি ওয়েবসাইটের অন্যান্য ফাইলের তুলনায় অনেক সহজ সরল প্রকৃতির একটি ফাইল।
তবে, বেশী খুশি হবেন না, কারন ফাইলটি নিয়ে কাজ করার সময় খুব সহজে নিজের অজান্তেই আবার ভুল হতে পারে। আর বিশেষ ক্ষেত্রে হালকা সেই ভুলের কারণে এসইও এর দৃষ্টিকোন থেকে ক্ষতির পরিমান হতে পারে অনেক ব্যাপক। যা কিনা সার্চ ইঞ্জিনের উপর নিষেধাজ্ঞা জারী করতে পারে যাতে তা আপনার সাইট ক্রাউল করা থামিয়ে দেয়।
কাজেই, বুঝতেই পারছেন – বিষয়টি কেমন স্পর্শকাতর।
এসব, কারণেই এই ফাইল কনফিগারের সময় ভুল হওয়াটা স্বাভাবিক একটি ঘটনা। এমনকি, অনেক অভিজ্ঞ এসইও বিশেষজ্ঞদের ক্ষেত্রেও এটি হতে পারে।
তাই, চিন্তার কিছু নাই। কারণ, ভুল হলে তার আবার যথাযথ সমাধানও আছে।
আজকের এই পোষ্টে এটি নিয়ে বিস্তারিত আলোচনা করব যে robot.txt ফাইল কি, এর গুরত্ব কেমন এবং এটি আপনার সাইটে কিভাবে প্রয়োগ করবেন।
Table of Contents
Robots.txt কি ধরণের ফাইল?
এটি এমন একটি ফাইল যা সার্চ ইঞ্জিনের ক্রাউলারকে বলে যে সে কোন ওয়েবসাইটের কোন অংশে যেতে পারবে এবং কোন কোন অংশে যেতে পারবে না।
গুগল এর ক্ষেত্রে তার ক্রাউলার এর নাম হলো গুগলবট, googlebot. এই গুগলবট তার নিয়মিত কার্যক্রমের অংশ হিসাবে গুগল কর্তৃক নির্দেশিত হয়ে বিভিন্ন ওয়েবসাইট ক্রাউল করে সেই সাইটের তথ্য সংরক্ষণ করে। এটি বুঝার জন্য যে সেই সাইটকে গুগলের সার্চ রেজাল্ট পেজে কিভাবে স্থান দিতে পারে।
আপনি যে কোন ওয়েবসাইটের রবট টেক্সট ফাইল দেখতে পারেন। এজন্য, ব্রাউজারে গিয়ে ঐ সাইটের ওয়েব এড্রেস বসানোর পর নিচের অংশটি যোগ করে দেন।
“/robots.txt”
যেমন ধরুন, আমার সাইটের ওয়েব এড্রেস seosheba.com; তাহলে আপনি যদি এই সাইটের রোবট টেক্সট ফাইল দেখতে চান তাহলে ব্রাউজারের url হবে নিম্নরুপ-
https://seosheba.com/robots.txt
একটি বেসিক এবং ফ্রেস রোবট টেক্সট ফাইল নিম্নরুপ দেখায় –
এই রবট টেক্সট ফাইল কিভাবে কাজ করে বা এই ভাষার বিভিন্ন অংশ দ্বারা কি বুঝায় তা পরে উল্লেখ করছি।
তার আগে চলুন জেনে নেই robots.txt ফাইল কেন গুরত্বপূর্ণ।
Robots.txt ফাইলের গুরত্ব কেমন?
যারা নতুনভাবে কোন ওয়েবসাইট শুরু করে বা যারা ওয়েবসাইট মাইগ্রেট করে তাদের কারোও কারোও ক্ষেত্রে বলতে শুনা যায়, মাসের পর মাস কাজ করা সত্ত্বেও সার্চ ইঞ্জিনে সাইট টি কেন র্যাংক করছে না।
সার্চ ইঞ্জিন জার্নালের তথ্য মতে এর ৬০% কারণ, সেখানে robots.txt ফাইল সঠিকভাবে কনফিগার বা আপডেট করা হয়নি।
এক্ষেত্রে আপনার সাইটের ফাইলটি নিম্নরুপ দেখাতে পারে –
এই কোড এর কাজ হলো সকল সার্চ ইঞ্জিনের ক্রাউলারকে ব্লক করে দেওয়া যাতে তারা সাইট টিতে প্রবেশ করতে না পারে।
রবট টেক্সট ফাইলের গুরত্বের আর একটি দিক হচ্ছে ক্রাউল বাজেট।
বিষয়টি বুঝার জন্য ধরে নেই, আপনার সাইট টি বেশ বড় এবং সেখানে কিছু খারাপ মানের পেজ রয়েছে। আপনি চান না যে সেই খারাপ পেজগুলোকে গুগল ক্রাউল করুক।
তাহলে আপনার করণিয় হলো robots.txt ফাইল এর মাধ্যমে সার্চ ইঞ্জিনকে ‘disallow’ নামের বার্তা প্রদান করা যার কাজ হলো নিম্ন মানের পেজ গুলোকে সার্চ ইঞ্জিন কর্তৃক ক্রাউলিং করা থেকে বিরত রাখা।
এটি করতে পারলে তা ক্রাউল বাজেটের কাজের চাপ কমিয়ে দিবে যাতে আপনার সাইটের শুধু ভালো পেজগুলোই র্যাংকিং এর জন্য বিবেচিত হয়।
এখানে ক্রাউল বাজেট সম্পর্কে বিস্তারিত বলছিনা। পরে অন্য একটি পোষ্টে তা নিয়ে কথা বলতে পারি।
রবট টেক্সট ফাইল আরোও যে সব ভাবে আপনাকে সাহায্য করতে পারে-
- ডুপ্লিকেট কনটেন্ট যাতে সার্চ ইঞ্জিন কর্তৃক ক্রাউলিং না হয়;
- ওয়েবসাইটের সুনির্দিষ্ট কোন অংশকে প্রাইভেট রাখার কাজে;
- ওয়েবসাইটের আভ্যন্তরীন সার্চ রেজাল্ট পেজকে ক্রাউলিং থেকে বিরত রাখার জন্য;
- সার্ভার ওভারলোড যাতে না হয়;
- গুগলের ক্রাউল বাজেটের অপচয় রোধ করার কাজে;
- সাইটের ইমেজ, ভিডিও এবং অন্যান রিসোর্সকে ক্রাউলিং থেকে ফেরানোর কাজে;
আপনাকে মনে রাখতে হবে, রবট টেক্সট ফাইল ব্যবহার করে যে সব পেজকে ক্রাউলিং থেকে বিরত রাখা হয়, গুগল সে সব পেজ ইনডেক্স করে না।
এজন্য, এটিকে robot exclusion protocol (REP) এর একটি অংশ হিসাবে ধরা হয়।
Robots.txt ফাইল ব্যবহারের নিয়ম?
এখন পর্যন্ত, রবট টেক্সট ফাইল ব্যবহারের তেমন কোন বাধা ধরা নিয়ম নেই।
তবে, ওয়েবসাইটে এর প্রয়োগ প্রসঙ্গে গুগল জুলাই, ২০১৯ সালে তার একটি প্রস্তাব ঘোষণা করে। যাতে এর সুনির্দিষ্ট কিছু মানদন্ড নিশ্চিত করা হয়।
আপনার সাইটের এসইও সফলতার জন্য রবট টেক্সট ফাইলের গুরত্ব অনেক বেশী।
কিন্তু, এর জন্য আপনাকে জানতে হবে কিভাবে ফাইলটির বিভিন্ন অংশ কাজ করে।
তাই, প্রথমেই চলুন রবট টেক্সট ফাইলের ফরমেট সম্পর্কে পরিচিত হয়ে নেই-
নিচে ফাইলটির বেসিক ফরমেট দেখানো হলো –
Sitemap: [URL location of sitemap]
User-agent: [bot identifier]
[directive 1]/
[directive 2]
[directive ...]
User-agent: [another bot identifier]
[directive 1]
[directive 2]
[directive ...]
এরকম ফাইল যদি এবারই প্রথম দেখে থাকেন, তাহলে কিছুটা অন্যরকম মনে হতে পারে।
তবে, ফাইলটির সিনট্যাক্স খুবই সাধারণ।
বিষয়টি হলো, উপরে প্রদর্শিত ফাইলের user-agent এবং directives এর মাধ্যমে আপনি সার্চ ইঞ্জিন কে নির্দেশনা প্রদান করবেন এই মর্মে যে সে ওয়েবসাইটের কোন কোন পেজ –এ প্রবেশ করা থেকে বিরত থাকবে।
চলুন, user-agent এবং directives নামের উপদান দু’টি সম্পর্কে আরোও বিস্তারিত জানার চেষ্টা করি-
ইউজার এজেন্ট
প্রত্যেক সার্চ ইঞ্জিন কে ভিন্ন ভিন্ন নামের user-agent দিয়ে সনাক্ত করা হয়। যাতে আপনি এক এক সার্চ ইঞ্জিনকে এক এক রকম নির্দেশনা দিতে পারেন।
এসইও কাজে সচারাচর যে সব ইউজার এজেন্ট ব্যবহৃত তাদের মধ্যে কয়েকটির নাম –
- গুগল: Googlebot
- গুগল ইমেজ: Googlebot-Image
- বিং: Bingbot
- ইয়াহু: Slurp
- বাইডু: Baiduspider
- ডাক ডাক গো: DuckDuckBot
মনে রাখতে হবে: সকল ইউজার এজেন্ট কেজ সেনসিটিভ।
সকল ইউজার এজেন্ট কে নির্দেশনা প্রদানের জন্য ”user-agent:” এর পরে স্টার চিহ্ন ’*’ দিতে হবে।
যেমন, আপনি যদি সকল ইউজার এজেন্টকে ব্লক করে শুধু গুগলকে ক্রাউল করার অনুমতি দিতে চান তাহলে এর কোড নিম্নরুপভাবে লিখতে হবে-
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
আপনার রবট টেক্সট ফাইলে এক এক রকমের ইউজার এজেন্ট এর জন্য যত ডিরেক্টিভস এর প্রয়োজন হয় তা অন্তর্ভুক্ত করতে পারেন।
এক্ষেত্রে, প্রথম ইউজার এজেন্ট এর জন্য যে ডিরেক্টিভ ঘোষণা করা হয়েছে তা পরের ইউজার এজেন্ট এর জন্য প্রযোজ্য হবে না।
এই নিয়মের ব্যতিক্রম তখনই হবে, যখন আপনি একই ইউজার এজেন্ট একাধিক বার ব্যবহার করবেন।
ডিরেক্টিভস
আপনার ঘোষিত ইউজার এজেন্ট যে নিয়ম বা বিধি অনুসরণ করবে তাকে ডিরেক্টিভস বলে।
গুগল কর্তৃক সাপোর্ট করা হয় এমন কয়েকটি ডিরেক্টিভস এর নাম নিচে উল্লেখ করছি –
Disallow
এই ডিরেক্টিভ ব্যবহারের মাধ্যমে সার্চ ইঞ্জিনকে বলা হয় সে যেন সেখানে উল্লেখিত কোন ফাইল বা পেজ এ প্রবেশ না করে।
উদাহারণ স্বরুপ, আপনি যদি চান সকল সার্চ ইঞ্জিন যাতে আপনার ব্লগের কোন পেজে প্রবেশ না করে, তাহলে নির্দেশনাটি হবে এমন-
User-agent: *
Disallow: /blog
Allow
এই ডিরেক্টিভ এর কাজ হলো সার্চ ইঞ্জিনকে অনুমতি প্রদান করা যাতে তারা একটি ওয়েবসাইটের সাব ডিরেক্টরির অন্তর্গত সুনির্দিষ্ট কোন ফাইল বা পেজ কে ক্রাউল করতে পারে।
উদাহারণ স্বরুপ-
আপনি যদি চান আপনার ব্লগের একটি পোষ্ট ছাড়া অন্য সব পোষ্টে সার্চ ইঞ্জিন ক্রাউল না করুক, তাহলে রবট টেক্সট ফাইলের কোড নিম্নরুপ হবে-
User-agent: *
Disallow: /blog
Allow: /blog/allowed-post
Sitemap
এই ডিরেক্টিভ এর উদ্দেশ্য হলো, আপনার ওয়েবসাইটে সাইটম্যাপ অবস্থান সম্পর্কে সার্চ ইঞ্জিনকে অবহিত করা।
আপনি যদি সাইটম্যাপ সম্পর্কে না জেনে থাকেন, তাহলে এক কথায় বলছি-
সাইটম্যাপ এর কাজ হচ্ছে ওয়েবসাইটের শুধুমাত্র ঐ সমস্ত পেজগুলোকে অন্তর্ভুক্ত করা যে পেজগুলোতে সার্চ ইঞ্জিন ক্রাউলিং ও ইনডেক্স করতে পারে।
নিচের উদাহারণের সাহায্যে রবট টেক্সট ফাইলের সাইটম্যাপ ডিরেক্টিভ দেখানো হলো-
Sitemap: https://www.domain.com/sitemap.xml
User-agent: *
Disallow: /blog/
Allow: /blog/post-title/
এখানে, একটি লক্ষণীয় বিষয় হলো, প্রতিটি সার্চ ইঞ্জিনের জন্য আলাদাভাবে সাইটম্যাপ ডিরেক্টিভ উল্লেখ করার প্রয়োজন নেই।
তাই, আপনি এটিকে রবট টেক্সট ফাইলের উপরে বা সবরা নিচে লিখতে পারেন।