نمایه سازی فرآیند اسکن فایلهای واقع در یک منبع اینترنتی توسط یک ربات جستجوگر است. این روش به این منظور انجام می شود که سایت در نتایج جستجو برای جستجوهای مختلف در موتور جستجو در دسترس باشد. از جمله بزرگترین موتورهای جستجوی امروز Yandex است که این اسکن را به روش خاص خود انجام می دهد.
دستورالعمل ها
مرحله 1
نمایه سازی سایت اینترنتی توسط برنامه های ویژه خودکار انجام می شود - ربات های جستجو ، که به طور خودکار ظاهر سایت های جدید را در شبکه جهانی وب ردیابی می کنند ، صفحات اینترنتی مستقر در اینترنت ، پرونده ها و پیوندهای آنها را در هر منبع به طور مداوم اسکن می کنند.
گام 2
برای اسکن ، ربات به دایرکتوری می رود که منبع در یک سرور خاص قرار دارد. هنگام انتخاب سایت جدید ، ربات از طریق دسترسی به آن هدایت می شود. به عنوان مثال ، عقیده ای وجود دارد که Yandex ابتدا سایت های ایجاد شده در یک دامنه روسی زبان و به زبان روسی - ru ، rf ، su یا ua را اسکن می کند و فقط پس از آن به مناطق دیگر منتقل می شود.
مرحله 3
این ربات به سایت می رود و ساختار آن را اسکن می کند ، ابتدا به دنبال فایلهایی می رود که جستجو بیشتر را نشان می دهد. به عنوان مثال ، سایتی برای Sitemap.xml یا robots.txt اسکن می شود. از این پرونده ها می توان برای تنظیم رفتار ربات جستجو هنگام اسکن استفاده کرد. با استفاده از نقشه سایت (sitemap.xml) ، ربات ایده دقیق تری از ساختار منبع بدست می آورد. مدیر وب از robots.txt برای تعریف پرونده هایی استفاده می کند که دوست ندارد در نتایج جستجو نشان داده شوند. به عنوان مثال ، این می تواند اطلاعات شخصی یا سایر داده های ناخواسته باشد.
مرحله 4
ربات با اسکن این دو سند و دریافت دستورالعمل های لازم ، شروع به تجزیه کد HTML و پردازش برچسب های دریافتی می کند. به طور پیش فرض ، در غیاب یک پرونده robots.txt ، موتور جستجو شروع به پردازش تمام اسناد ذخیره شده در سرور می کند.
مرحله 5
با کلیک بر روی پیوندهای موجود در اسناد ، ربات همچنین اطلاعات مربوط به سایت های دیگری را که به دنبال این منبع در صف اسکن هستند ، دریافت می کند. پرونده های اسکن شده در سایت به عنوان کپی متن و ساختار بر روی سرورها در مراکز داده Yandex ذخیره می شوند.
مرحله 6
نیاز به اسکن مجدد نیز به طور خودکار توسط ربات ها تعیین می شود. این برنامه وقتی دوباره از فهرست بندی استفاده می کند ، نتیجه اسکن موجود را با نسخه به روز شده سایت مقایسه می کند. اگر داده های دریافت شده توسط برنامه متفاوت باشد ، نسخه سایت در سرور Yandex نیز به روز می شود.