Robots.txt কি ধরণের ফাইল এবং এসইও কাজে এর গুরত্ব কতটুকু?

আপনি কি রোবট টেক্সট বা robot.txt ফাইল সম্পর্কে জানতে চান? যে বিষয়টি কি, কিভাবে কাজ করে এবং কেন এর প্রয়োজন হয়?

একজন ব্লগার বা ডিজিটাল মার্কেটার হয়েও বিষয়টি সম্পর্কে আপনার যদি পরিস্কার ধারণা না থাকে তাহলে আপনি সঠিক জায়গায় এসেছেন।

বিভিন্ন রকমের ফাইল দিয়ে তৈরি হয় পূর্ণাঙ্গ একটি ওয়েবসাইট। ফাইলগুলোর মধ্যে রোবটস টেক্সট নামের এই ফাইলটিও অন্তর্ভূক্ত আছে।

জেনে খুশি হবেন – এটি ওয়েবসাইটের অন্যান্য ফাইলের তুলনায় অনেক সহজ সরল প্রকৃতির একটি ফাইল।

তবে, বেশী খুশি হবেন না, কারন ফাইলটি নিয়ে কাজ করার সময় খুব সহজে নিজের অজান্তেই আবার ভুল হতে পারে। আর বিশেষ ক্ষেত্রে হালকা সেই ভুলের কারণে এসইও এর দৃষ্টিকোন থেকে ক্ষতির পরিমান হতে পারে অনেক ব্যাপক। যা কিনা সার্চ ইঞ্জিনের উপর নিষেধাজ্ঞা জারী করতে পারে যাতে তা আপনার সাইট ক্রাউল করা থামিয়ে দেয়।

কাজেই, বুঝতেই পারছেন – বিষয়টি কেমন স্পর্শকাতর।

এসব, কারণেই এই ফাইল কনফিগারের সময় ভুল হওয়াটা স্বাভাবিক একটি ঘটনা। এমনকি, অনেক অভিজ্ঞ এসইও বিশেষজ্ঞদের ক্ষেত্রেও এটি হতে পারে।

তাই, চিন্তার কিছু নাই। কারণ, ভুল হলে তার আবার যথাযথ সমাধানও আছে।

আজকের এই পোষ্টে এটি নিয়ে বিস্তারিত আলোচনা করব যে robot.txt ফাইল কি, এর গুরত্ব কেমন এবং এটি আপনার সাইটে কিভাবে প্রয়োগ করবেন।

Robots.txt কি ধরণের ফাইল?

এটি এমন একটি ফাইল যা সার্চ ইঞ্জিনের ক্রাউলারকে বলে যে সে কোন ওয়েবসাইটের কোন অংশে যেতে পারবে এবং কোন কোন অংশে যেতে পারবে না।

গুগল এর ক্ষেত্রে তার ক্রাউলার এর নাম হলো গুগলবট, googlebot. এই গুগলবট তার নিয়মিত কার্যক্রমের অংশ হিসাবে গুগল কর্তৃক নির্দেশিত হয়ে বিভিন্ন ওয়েবসাইট ক্রাউল করে সেই সাইটের তথ্য সংরক্ষণ করে। এটি বুঝার জন্য যে সেই সাইটকে গুগলের সার্চ রেজাল্ট পেজে কিভাবে স্থান দিতে পারে।

আপনি যে কোন ওয়েবসাইটের রবট টেক্সট ফাইল দেখতে পারেন। এজন্য, ব্রাউজারে গিয়ে ঐ সাইটের ওয়েব এড্রেস বসানোর পর নিচের অংশটি যোগ করে দেন।

“/robots.txt”

যেমন ধরুন, আমার সাইটের ওয়েব এড্রেস seosheba.com; তাহলে আপনি যদি এই সাইটের রোবট টেক্সট ফাইল দেখতে চান তাহলে ব্রাউজারের url হবে নিম্নরুপ-

https://seosheba.com/robots.txt

একটি বেসিক এবং ফ্রেস রোবট টেক্সট ফাইল নিম্নরুপ দেখায় –

robots.txt

এই রবট টেক্সট ফাইল কিভাবে কাজ করে বা এই ভাষার বিভিন্ন অংশ দ্বারা কি বুঝায় তা পরে উল্লেখ করছি।

তার আগে চলুন জেনে নেই robots.txt ফাইল কেন গুরত্বপূর্ণ।

Robots.txt ফাইলের গুরত্ব কেমন?

যারা নতুনভাবে কোন ওয়েবসাইট শুরু করে বা যারা ওয়েবসাইট মাইগ্রেট করে তাদের কারোও কারোও ক্ষেত্রে বলতে শুনা যায়, মাসের পর মাস কাজ করা সত্ত্বেও সার্চ ইঞ্জিনে সাইট টি কেন র‌্যাংক করছে না।

সার্চ ইঞ্জিন জার্নালের তথ্য মতে এর ৬০% কারণ, সেখানে robots.txt ফাইল সঠিকভাবে কনফিগার বা আপডেট করা হয়নি।

এক্ষেত্রে আপনার সাইটের ফাইলটি নিম্নরুপ দেখাতে পারে –

robots.txt

এই কোড এর কাজ হলো সকল সার্চ ইঞ্জিনের ক্রাউলারকে ব্লক করে দেওয়া যাতে তারা সাইট টিতে প্রবেশ করতে না পারে।

রবট টেক্সট ফাইলের গুরত্বের আর একটি দিক হচ্ছে ক্রাউল বাজেট।

বিষয়টি বুঝার জন্য ধরে নেই, আপনার সাইট টি বেশ বড় এবং সেখানে কিছু খারাপ মানের পেজ রয়েছে। আপনি চান না যে সেই খারাপ পেজগুলোকে গুগল ক্রাউল করুক।

তাহলে আপনার করণিয় হলো robots.txt ফাইল এর মাধ্যমে সার্চ ইঞ্জিনকে ‘disallow’ নামের বার্তা প্রদান করা যার কাজ হলো নিম্ন মানের পেজ গুলোকে সার্চ ইঞ্জিন কর্তৃক ক্রাউলিং করা থেকে বিরত রাখা।

এটি করতে পারলে তা ক্রাউল বাজেটের কাজের চাপ কমিয়ে দিবে যাতে আপনার সাইটের শুধু ভালো পেজগুলোই র‌্যাংকিং এর জন্য বিবেচিত হয়।

এখানে ক্রাউল বাজেট সম্পর্কে বিস্তারিত বলছিনা। পরে অন্য একটি পোষ্টে তা নিয়ে কথা বলতে পারি।

রবট টেক্সট ফাইল আরোও যে সব ভাবে আপনাকে সাহায্য করতে পারে-

  • ডুপ্লিকেট কনটেন্ট যাতে সার্চ ইঞ্জিন কর্তৃক ক্রাউলিং না হয়;
  • ওয়েবসাইটের সুনির্দিষ্ট কোন অংশকে প্রাইভেট রাখার কাজে;
  • ওয়েবসাইটের আভ্যন্তরীন সার্চ রেজাল্ট পেজকে ক্রাউলিং থেকে বিরত রাখার জন্য;
  • সার্ভার ওভারলোড যাতে না হয়;
  • গুগলের ক্রাউল বাজেটের অপচয় রোধ করার কাজে;
  • সাইটের ইমেজ, ভিডিও এবং অন্যান রিসোর্সকে ক্রাউলিং থেকে ফেরানোর কাজে;

আপনাকে মনে রাখতে হবে, রবট টেক্সট ফাইল ব্যবহার করে যে সব পেজকে ক্রাউলিং থেকে বিরত রাখা হয়, গুগল সে সব পেজ ইনডেক্স করে না।

এজন্য, এটিকে robot exclusion protocol (REP) এর একটি অংশ হিসাবে ধরা হয়।

Robots.txt ফাইল ব্যবহারের নিয়ম?

এখন পর্যন্ত, রবট টেক্সট ফাইল ব্যবহারের তেমন কোন বাধা ধরা নিয়ম নেই।

তবে, ওয়েবসাইটে এর প্রয়োগ প্রসঙ্গে গুগল জুলাই, ২০১৯ সালে তার একটি প্রস্তাব ঘোষণা করে। যাতে এর সুনির্দিষ্ট কিছু মানদন্ড নিশ্চিত করা হয়।

আপনার সাইটের এসইও সফলতার জন্য রবট টেক্সট ফাইলের গুরত্ব অনেক বেশী।

কিন্তু, এর জন্য আপনাকে জানতে হবে কিভাবে ফাইলটির বিভিন্ন অংশ কাজ করে।

তাই, প্রথমেই চলুন রবট টেক্সট ফাইলের ফরমেট সম্পর্কে পরিচিত হয়ে  নেই-

নিচে ফাইলটির বেসিক ফরমেট দেখানো হলো –

Sitemap: [URL location of sitemap]

User-agent: [bot identifier]
[directive 1]/
[directive 2]
[directive ...]

User-agent: [another bot identifier]
[directive 1]
[directive 2]
[directive ...]

এরকম ফাইল যদি এবারই প্রথম দেখে থাকেন, তাহলে কিছুটা অন্যরকম মনে হতে পারে।

তবে, ফাইলটির সিনট্যাক্স খুবই সাধারণ।

বিষয়টি হলো, উপরে প্রদর্শিত ফাইলের user-agent এবং directives এর মাধ্যমে আপনি সার্চ ইঞ্জিন কে নির্দেশনা প্রদান করবেন এই মর্মে যে সে ওয়েবসাইটের কোন কোন পেজ –এ প্রবেশ করা থেকে বিরত থাকবে।

চলুন, user-agent এবং directives নামের উপদান দু’টি সম্পর্কে আরোও বিস্তারিত জানার চেষ্টা করি-

ইউজার এজেন্ট

প্রত্যেক সার্চ ইঞ্জিন কে ভিন্ন ভিন্ন নামের user-agent দিয়ে সনাক্ত করা হয়। যাতে আপনি এক এক সার্চ ইঞ্জিনকে এক এক রকম নির্দেশনা দিতে পারেন।

এসইও কাজে সচারাচর যে সব ইউজার এজেন্ট ব্যবহৃত তাদের মধ্যে কয়েকটির নাম –

  • গুগল: Googlebot
  • গুগল ইমেজ: Googlebot-Image
  • বিং: Bingbot
  • ইয়াহু: Slurp
  • বাইডু: Baiduspider
  • ডাক ডাক গো: DuckDuckBot

মনে রাখতে হবে: সকল ইউজার এজেন্ট কেজ সেনসিটিভ।

সকল ইউজার এজেন্ট কে নির্দেশনা প্রদানের জন্য ”user-agent:” এর পরে স্টার চিহ্ন ’*’ দিতে হবে।

যেমন, আপনি যদি সকল ইউজার এজেন্টকে ব্লক করে শুধু গুগলকে ক্রাউল করার অনুমতি দিতে চান তাহলে এর কোড নিম্নরুপভাবে লিখতে হবে-

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

আপনার রবট টেক্সট ফাইলে এক এক রকমের ইউজার এজেন্ট এর জন্য যত ডিরেক্টিভস এর প্রয়োজন হয় তা অন্তর্ভুক্ত করতে পারেন।

এক্ষেত্রে, প্রথম ইউজার এজেন্ট এর জন্য যে ডিরেক্টিভ ঘোষণা করা হয়েছে তা পরের ইউজার এজেন্ট এর জন্য প্রযোজ্য হবে না।

এই নিয়মের ব্যতিক্রম তখনই হবে, যখন আপনি একই ইউজার এজেন্ট একাধিক বার ব্যবহার করবেন।

ডিরেক্টিভস

আপনার ঘোষিত ইউজার এজেন্ট যে নিয়ম বা বিধি অনুসরণ করবে তাকে ডিরেক্টিভস বলে।

গুগল কর্তৃক সাপোর্ট করা হয় এমন কয়েকটি ডিরেক্টিভস এর নাম নিচে উল্লেখ করছি –

Disallow

এই ডিরেক্টিভ ব্যবহারের মাধ্যমে সার্চ ইঞ্জিনকে বলা হয় সে যেন সেখানে উল্লেখিত কোন ফাইল বা পেজ এ প্রবেশ না করে।

উদাহারণ স্বরুপ, আপনি যদি চান সকল সার্চ ইঞ্জিন যাতে আপনার ব্লগের কোন পেজে প্রবেশ না করে, তাহলে নির্দেশনাটি হবে এমন-

User-agent: *
Disallow: /blog

Allow

এই ডিরেক্টিভ এর কাজ হলো সার্চ ইঞ্জিনকে অনুমতি প্রদান করা যাতে তারা একটি ওয়েবসাইটের সাব ডিরেক্টরির অন্তর্গত সুনির্দিষ্ট কোন ফাইল বা পেজ কে ক্রাউল করতে পারে।

উদাহারণ স্বরুপ-

আপনি যদি চান আপনার ব্লগের একটি পোষ্ট ছাড়া অন্য সব পোষ্টে সার্চ ইঞ্জিন ক্রাউল না করুক, তাহলে রবট টেক্সট ফাইলের কোড নিম্নরুপ হবে-

User-agent: *
Disallow: /blog
Allow: /blog/allowed-post

Sitemap

এই ডিরেক্টিভ এর উদ্দেশ্য হলো, আপনার ওয়েবসাইটে সাইটম্যাপ অবস্থান সম্পর্কে সার্চ ইঞ্জিনকে অবহিত করা।

আপনি যদি সাইটম্যাপ সম্পর্কে না জেনে থাকেন, তাহলে এক কথায় বলছি-

সাইটম্যাপ এর কাজ হচ্ছে ওয়েবসাইটের শুধুমাত্র ঐ সমস্ত পেজগুলোকে অন্তর্ভুক্ত করা যে পেজগুলোতে সার্চ ইঞ্জিন ক্রাউলিং ও ইনডেক্স করতে পারে।

নিচের উদাহারণের সাহায্যে রবট টেক্সট ফাইলের সাইটম্যাপ ডিরেক্টিভ দেখানো হলো-

Sitemap: https://www.domain.com/sitemap.xml

User-agent: *
Disallow: /blog/
Allow: /blog/post-title/

এখানে, একটি লক্ষণীয় বিষয় হলো, প্রতিটি সার্চ ইঞ্জিনের জন্য আলাদাভাবে সাইটম্যাপ ডিরেক্টিভ উল্লেখ করার প্রয়োজন নেই।

তাই, আপনি এটিকে রবট টেক্সট ফাইলের উপরে বা সবরা নিচে লিখতে পারেন।

Leave a Comment