خدمات مرکز


توزیع بستری از وب عمیق

چکیده: اینترنت بستری را فراهم می‌کند که روزانه میلیون‌ها انسان از طریق آن در حال فعالیت هستند و یا با یکدیگر در ارتباط‌اند . اما کارشناسان بر این باورند که دنیای وب قسمتی را در خود نهفته دارد که از آن در جهت اعمال تروریستی استفاده می‌شود ، کارشناسان این بعد از وب را وب تاریک می‌نامند . اصطلاح وب نامرئی یا وب " عمیق " به مخزن عظیمی از اطلاعات اطلاق می‌شود که موتورهای جستجو به آن‌ها دسترسی مستقیم ندارند. به‌طور مثال پایگاه داده کتابخانه‌های دانشگاه‌ها ، سایت‌هایی که برای مشاهده آن‌ها نیاز به رمز عبور داریم و سایت‌هایی که به هر دلیل ، موتورهای جستجو از فهرست بندی آن‌ها ،منع شده‌اند . برخلاف صفحات قابل‌مشاهده ( یعنی همین وبی که می‌توانید توسط موتورهای جستجو ببینید ) اطلاعاتی در پایگاه‌های داده موجود است که اسپایدر و ربات‌های خزنده (یعنی ابزارهای جستجوی اطلاعات موتورهای جستجو ) به آن‌ها دسترسی ندارند. به‌عنوان نمونه ، اغلب مردم گوگل را به‌عنوان دارنده بزرگ‌ترین پایگاه داده جستجو تصور می‌کنند که حدوداً 8 بیلیون صفحه را فهرست بندی کرده است . این رقم بزرگ است ولی اگر وب مخفی را در نظر بگیریم باید این رقم را بایستی در 500 ضرب کنیم . بعلاوه گوگل فقط صفحات قابل جستجو را که حدوداً 250 بیلیون است ذخیره کرده است ولی از رقم دقیق صفحات غیرقابل جستجو خبری نیست . عدم دسترسی به محتوای وب تاریک باعث شده تا کارشناسان به دنبال راه‌حل‌هایی برای این مشکل باشند . در این مقاله سعی می‌کنیم تا با ارائه یک راه‌حل کلی ابتدا به محتوای وب تاریک و دامنه‌های آلوده دست‌یابیم سپس با استفاده از الگوریتم‌های رایج موجود ، بر اساس مؤلفه‌های موردنظر خودمان ، وب‌سایت‌ها را دسته‌بندی موضوعی کرده و از اطلاعات آن‌ها استفاده کنیم .

 

 





مقالات دیگر
ارائه رمزنگاری بر اساس تولید اعداد بیت تصادفی

حمید نیکوئی


تصحیح یک عقیده نادرست در مورد مشهورترین سکه اورخان غازی دومین پادشاه عثمانی

علیرضا بخشعلی نژاد اصل


تجدید ارزیابی دارایی‌ها

فاطمه امانی تکبلاغ