خدمات مرکز


توزیع بستری از وب عمیق

چکیده: اینترنت بستری را فراهم می‌کند که روزانه میلیون‌ها انسان از طریق آن در حال فعالیت هستند و یا با یکدیگر در ارتباط‌اند . اما کارشناسان بر این باورند که دنیای وب قسمتی را در خود نهفته دارد که از آن در جهت اعمال تروریستی استفاده می‌شود ، کارشناسان این بعد از وب را وب تاریک می‌نامند . اصطلاح وب نامرئی یا وب " عمیق " به مخزن عظیمی از اطلاعات اطلاق می‌شود که موتورهای جستجو به آن‌ها دسترسی مستقیم ندارند. به‌طور مثال پایگاه داده کتابخانه‌های دانشگاه‌ها ، سایت‌هایی که برای مشاهده آن‌ها نیاز به رمز عبور داریم و سایت‌هایی که به هر دلیل ، موتورهای جستجو از فهرست بندی آن‌ها ،منع شده‌اند . برخلاف صفحات قابل‌مشاهده ( یعنی همین وبی که می‌توانید توسط موتورهای جستجو ببینید ) اطلاعاتی در پایگاه‌های داده موجود است که اسپایدر و ربات‌های خزنده (یعنی ابزارهای جستجوی اطلاعات موتورهای جستجو ) به آن‌ها دسترسی ندارند. به‌عنوان نمونه ، اغلب مردم گوگل را به‌عنوان دارنده بزرگ‌ترین پایگاه داده جستجو تصور می‌کنند که حدوداً 8 بیلیون صفحه را فهرست بندی کرده است . این رقم بزرگ است ولی اگر وب مخفی را در نظر بگیریم باید این رقم را بایستی در 500 ضرب کنیم . بعلاوه گوگل فقط صفحات قابل جستجو را که حدوداً 250 بیلیون است ذخیره کرده است ولی از رقم دقیق صفحات غیرقابل جستجو خبری نیست . عدم دسترسی به محتوای وب تاریک باعث شده تا کارشناسان به دنبال راه‌حل‌هایی برای این مشکل باشند . در این مقاله سعی می‌کنیم تا با ارائه یک راه‌حل کلی ابتدا به محتوای وب تاریک و دامنه‌های آلوده دست‌یابیم سپس با استفاده از الگوریتم‌های رایج موجود ، بر اساس مؤلفه‌های موردنظر خودمان ، وب‌سایت‌ها را دسته‌بندی موضوعی کرده و از اطلاعات آن‌ها استفاده کنیم .

 

 





مقالات دیگر
استفاده از ربات در عیب‌یابی کابل های زیرزمینی

آرش آقاطهرانی


بررسی اعتیاد و روش‌های درمان آن

سید سجاد قاضوی دوزین


بررسی تطبیقی هوشمند سازی در برنامه درسی کشورهای مالزی، استرالیا و فنلاند و ارائه الگویی برای ایران

محمدرضا غزنوی ، سمانه ایرانی ، عباسعلی هراتی