Как да намерим скрити страници на уебсайтове

През 2016 г. Google обработи над 3,2 трилиона заявки за търсене, но резултатите, предоставени от търсачката, представляват само част от наличното съдържание онлайн. Голяма част от информацията, достъпна онлайн, не е достъпна от търсачките, така че трябва да използвате специални инструменти или сами да проучите уебсайтове, за да намерите тези скрити страници. Известна като дълбоката мрежа, тази скрита информация отчита до 5000 пъти повече от наличната, използвайки типични техники за търсене.

Видове скрито съдържание

Скритите страници на уебсайтовете попадат в категории, които описват защо те остават невидими за търсачките.

Някои представляват динамично съдържание, което се показва само когато посетител изпрати конкретна заявка на уебсайт, който използва управляван от база данни код за представяне на целеви резултати. Като пример тези страници могат да включват резултати от пазаруване въз основа на конкретни комбинации от продуктови критерии. Търсачките не са предназначени да проследяват и съхраняват информация, съхранявана в тези бази данни. За да намерите тези страници, ще трябва да отидете на уебсайта и да потърсите конкретната информация, която търсите, или да използвате услуга за търсене, ориентирана към база данни, като Bright Planet.

Някои страници нямат връзки, които ги свързват с източници за търсене. Временни ресурси, като множество версии на уебсайтове, които се разработват, могат да попаднат в тази категория, както и лошо проектирани уебсайтове. Например, ако някой създаде уеб страница и я качи на сървъра на уебсайта, но не успее да добави връзка към нея на текущите страници на уебсайта, никой няма да разбере, че е там, включително търсачките.

Още повече страници изискват идентификационни данни за влизане, за да ги видят или да ги достигнат, като сайтове за абонамент. Уеб дизайнерите определят страниците и раздели на сайтове като ограничени за търсачките, като ефективно ги елиминират от конвенционалните средства. За достъп до тези страници обикновено трябва да създадете акаунт, преди да получите разрешение за достъп до тях.

Използване на файлове Robots.txt

Търсачките обхождат страниците на уебсайт и индексират съдържанието му, за да може да се покаже в отговор на запитвания. Когато собственикът на уебсайт иска да изключи някои части от своя домейн от тези процедури за индексиране, тя добавя адресите на тези директории или страници към специален текстов файл с име robots.txt, съхраняван в корена на нейния сайт. Тъй като повечето уебсайтове включват файл с роботи, независимо дали добавят изключения към него, можете да използвате предсказуемото име на документа, за да покажете съдържанието му.

Ако въведете „[име на домейн] /robots.txt“ без кавичките в реда за местоположение на вашия браузър, замествайки „[име на домейн]“ с адреса на сайта, съдържанието на файла с роботи често се появява в прозореца на браузъра след натискате клавиша "Enter". Записите, предшествани с „забрани“ или „не следват“, представляват части от сайта, които остават недостъпни чрез търсачка.

Направи си сам хакерство на уебсайтове

В допълнение към файловете robot.txt, често можете да намерите скрито иначе съдържание, като въведете уеб адреси за конкретни страници и папки във вашия уеб браузър. Например, ако разглеждате уебсайта на художник и забелязвате, че всяка страница използва една и съща конвенция за именуване - като gallery1.html, gallery2.html, gallery4.html - тогава може да успеете да намерите скрита галерия, като напишете страницата " gallery3.html. " във вашия уеб браузър.

По същия начин, ако видите, че уебсайтът използва папки за организиране на страници - например example.com/content/page1.html, като папката е „/ content“ - тогава може да можете да видите самата папка, като въведете уебсайта и папката , без страница, като „example.com/content/“ във вашия уеб браузър. Ако достъпът до папката не е деактивиран, тогава може да можете да навигирате през страниците, които тя съдържа, както и страници във всякакви подпапки, за да намерите скрито съдържание.