چکیده: اینترنت بستری را فراهم میکند که روزانه میلیونها انسان از طریق آن در حال فعالیت هستند و یا با یکدیگر در ارتباطاند . اما کارشناسان بر این باورند که دنیای وب قسمتی را در خود نهفته دارد که از آن در جهت اعمال تروریستی استفاده میشود ، کارشناسان این بعد از وب را وب تاریک مینامند . اصطلاح وب نامرئی یا وب " عمیق " به مخزن عظیمی از اطلاعات اطلاق میشود که موتورهای جستجو به آنها دسترسی مستقیم ندارند. بهطور مثال پایگاه داده کتابخانههای دانشگاهها ، سایتهایی که برای مشاهده آنها نیاز به رمز عبور داریم و سایتهایی که به هر دلیل ، موتورهای جستجو از فهرست بندی آنها ،منع شدهاند . برخلاف صفحات قابلمشاهده ( یعنی همین وبی که میتوانید توسط موتورهای جستجو ببینید ) اطلاعاتی در پایگاههای داده موجود است که اسپایدر و رباتهای خزنده (یعنی ابزارهای جستجوی اطلاعات موتورهای جستجو ) به آنها دسترسی ندارند. بهعنوان نمونه ، اغلب مردم گوگل را بهعنوان دارنده بزرگترین پایگاه داده جستجو تصور میکنند که حدوداً 8 بیلیون صفحه را فهرست بندی کرده است . این رقم بزرگ است ولی اگر وب مخفی را در نظر بگیریم باید این رقم را بایستی در 500 ضرب کنیم . بعلاوه گوگل فقط صفحات قابل جستجو را که حدوداً 250 بیلیون است ذخیره کرده است ولی از رقم دقیق صفحات غیرقابل جستجو خبری نیست . عدم دسترسی به محتوای وب تاریک باعث شده تا کارشناسان به دنبال راهحلهایی برای این مشکل باشند . در این مقاله سعی میکنیم تا با ارائه یک راهحل کلی ابتدا به محتوای وب تاریک و دامنههای آلوده دستیابیم سپس با استفاده از الگوریتمهای رایج موجود ، بر اساس مؤلفههای موردنظر خودمان ، وبسایتها را دستهبندی موضوعی کرده و از اطلاعات آنها استفاده کنیم .
محسن رفیعی
رضا کیانی ، افسانه عالی نژادیان
سپهر تقی زاده