Google Hacking

Google Hacking to technika wykorzystywania wyszukiwarki Google, która zwraca informacje przydatne przy analizie bezpieczeństwa innych stron WWW.

Dowiesz się:

Google Sztu(cz)ka

Wyszukiwarka Google co jakiś czas indeksuje strony WWW. Indeksuje, czyli odwiedza daną stronę, po czym zapisuje ją, żeby w przyszłości móc ją wyświetlić jako wynik wyszukiwania. Warto zwrócić uwagę, że Google nie trzyma jedynie adresu do strony. Przechowuje on całą zawartość strony.

Schemat

Ba, nawet więcej – trzyma jej kopie przez pewien czas. Te archiwalne kopie fachowo nazywane są: cache, pamięć podręczna. Zobaczmy jak działa nasz pierwszy, rozgrzewkowy Google Hack:

cache:jakilinux.pl

Proste, a czasem bardzo przydatne. Np. jeśli jakiś link nie działa (bo strona się zawiesiła, albo ktoś specjalnie coś usunął), to i tak możemy podejrzeć archiwalną zawartość.

Ludzka głupota

Tylko dwie rzeczy są nieskończone: wszechświat oraz ludzka głupota, choć nie jestem pewny co do tej pierwszej.

Albert Einstein

Zdziwiłbyś się, ilu ludzi po prostu udostępnia swoje hasła, gorzej – nie tylko swoje. Tak zwanym Google Dorks zdarza się udostępnić: listy haseł, zbiory z numerami kart kredytowych, adresy domyślnych interfejsów konfiguracyjnych, albo inne parametry mające znaczenie dla zabezpieczeń danej strony. Dzięki temu, przez określenie odpowiednich słów kluczowych oraz innych parametrów wyszukiwania, napastnik może mniejszym niż zwykle nakładem pracy dokonać prób ataku na nieprawidłowo zbudowane serwisy. Równocześnie jednak, zapytania takie mogą stanowić znaczną pomoc dla administratorów witryn i uprawnionych audytorów zabezpieczeń.

Przykład: Dzienniki zdarzeń serwera (tzw. logi) zawierające informacje dotyczące konta administratora, w tym nazwę użytkownika i hasło.

admin account info filetype:log

Około 309 wyników w 0,12 s.

Piękny przykład: Kamerki (czasem nawet ruchome). Nie zawsze się uda, ale jeśli znajdziemy jakiś ciekawych ludzi to mamy własny Big Brother Show.

camera linksys inurl:main.cgi
liveapplet
live view – axis
inurl:jview.htm

Oczywiście, przykłady można by mnożyć w nieskończoność. Jednak więcej korzyści da, jeśli Czytelnik sam zacznie szukać, eksperymentować, do czego gorąco zachęcam. Zacząć można od największej bazy Google Hacków – GHDB: Google Hacking Database. Kiedyś była łatwo dostępna, dziś trzeba się zarejestrować, żeby zobaczyć całe to dobrodziejstwo, ale na szczęście za darmo (póki co… spieszcie się!).

Cześć, nazywam się Google, też mam 12 lat

Istnieją strony, do których nie masz dostępu, natomiast Pan Google ma. Sprawa z pewnością jest irytująca, gdy kiedyś miałeś taki dostęp, a teraz nie. Często tak dzieje się na forach albo portalach z informacjami, gdzie widzimy tylko wstęp do artykułu. Kiedy klikamy na „pokaż więcej” to np. każą płacić SMS-em, zarejestrować się czy robić inne niepotrzebne rzeczy. Ale Google często „widzi”, te strony w całości, tzn. ma do nich pełny dostęp.

Jest prosty sposób, aby takie strony „myślały”, że to my jesteśmy pajączkiem Google’a… Czym?
Pajączek Google’a to inaczej mówiąc Googlebot, spider, bot, crawler. Tak naprawdę to po prostu bezmyślny program (najczęściej napisany w języku C), który „udaje” internautę. „Surfuje” po internecie i zbiera informacje o stronach WWW.

I taki pajączek Google’a może za darmo oglądać wszystko, a my nie? A więc do dzieła. W przeglądarce Firefox na pasku adresu wpisujemy:

about:config

Na liście wyszukaj parametr general.useragent.extra.firefox. Kliknij na niego dwukrotnie. Wpisz nową wartość:

Googlebot 2.1

Żeby przywrócić ustawienia, kliknij ten sam parametr prawym przyciskiem i wybierz Resetuj/Restartuj.

Jak się bronić?

Najprostszy sposób: Załóżmy, że mamy np. forum. Chcemy mieć święty spokój, żeby żadne prywatne wiadomości (posty) nie „wyciekły” do sieci poprzez Google. Albo, żeby nikt nie kombinował (jak my powyżej ;) z podszywaniem się pod Googleboty (pajączki). Możemy storzyć plik robots.txt. Umieszczamy go w głównym folderze, obok index.html/index.php. W robots.txt wpisujemy dwie magiczne linijki:

User-agent: *
Disallow: /

Co znaczy, że żaden pajączek (bot) nie ma tu prawa wstępu i nigdy nie wejdzie i nic nie zaindeksuje. Dokladniej opisany plik robots.txt jest np. : tutaj.

To wszystko. Starałem się w jak najbardziej zjadliwy dla Czytelnika sposób podać wszystko, co aktualnie wiem na temat Google Hackingu. Mam nadzieję, że to mi się udało. Dziękuje za lekturę.

Autor: Adam Stelmaszczyk, Student Informatyki na Politechnice Warszawskiej
Skład: Swamper

Komentarze (RSS)
Komentarze są prywatnymi opiniami dodających je osób. Prosimy o zachowanie kultury wypowiedzi. Komentarze obraźliwe oraz obniżające poziom serwisu będą usuwane. Więcej w regulaminie komentowania.

15 komentarzy

  1. Gentoolx 18 lutego 2010 o godz. 22:46 #

    Co do pliku robots.txt to chciałbym zauważyć, że niekoniecznie musi być on egzekwowany przez robota, szczególnie jeśli chodzi o inne wyszukiwarki.

  2. robb 18 lutego 2010 o godz. 23:05 #

    Chcę zwrócić uwagę, że plik robots.txt w żaden sposób nie blokuje dostępu do strony dla botów. Służy on jedynie jako wskazówka i tylko od konkretnego bota zależy, czy się do niej zastosuje, czy nie. Kulturalne boty, jak np. Googlebot się do tego zastosują, jednak spamboty już niekoniecznie.

  3. karolcia 19 lutego 2010 o godz. 22:31 #

    Ciekawy artykuł.

    Co do kopii stron to polecam: <a href="http://www.archive.org” target=”_blank”>www.archive.org
    może się przydać jeśli oryginalna strona padnie, a są nam potrzebne jakieś informacje.

    można zobaczyć np. jak wyglądała serwis w 2005 r.

    <a href="http://web.archive.org/web/*/jakilinux.org&quot; rel="nofollow">web.archive.org/web/*/jakilinux.org

  4. Speaktrap 27 lutego 2010 o godz. 19:29 #

    Fajny artykuł =) No i nikt (jak na razie) do niczego się nie przyczepia

  5. gidgnulur 27 lutego 2010 o godz. 22:09 #

    Ale jaja z tymi kamerkami. ;)

    • Anon 1 marca 2010 o godz. 3:32 #

      Kamerki można znaleźć pod tymi frazami w googlu:

      * inurl:”CgiStart?page=”

      * inurl:/view.shtml

      * intitle:”Live View / – AXIS

      * inurl:view/view.shtml

      * inurl:ViewerFrame?Mode=

      * inurl:ViewerFrame?Mode=Refresh

      * inurl:axis-cgi/jpg

      * inurl:axis-cgi/mjpg (motion-JPEG) (disconnected)

      * inurl:view/indexFrame.shtml

      * inurl:view/index.shtml

      * inurl:view/view.shtml

      * liveapplet

      * intitle:”live view” intitle:axis

      * intitle:liveapplet

      * allintitle:”Network Camera NetworkCamera” (disconnected)

      * intitle:axis intitle:”video server”

      * intitle:liveapplet inurl:LvAppl

      * intitle:”EvoCam” inurl:”webcam.html”

      * intitle:”Live NetSnap Cam-Server feed”

      * intitle:”Live View / – AXIS”

      * intitle:”Live View / – AXIS 206M”

      * intitle:”Live View / – AXIS 206W”

      * intitle:”Live View / – AXIS 210″

      * inurl:indexFrame.shtml Axis

      * inurl:”MultiCameraFrame?Mode=Motion” (disconnected)

      * intitle:start inurl:cgistart

      * intitle:”WJ-NT104 Main Page”

      * intitle:snc-z20 inurl:home/

      * intitle:snc-cs3 inurl:home/

      * intitle:snc-rz30 inurl:home/

      * intitle:”sony network camera snc-p1″

      * intitle:”sony network camera snc-m1″

      * site:.viewnetcam.com -www.viewnetcam.com
      * intitle:”Toshiba Network Camera” user login

      * intitle:”netcam live image” (disconnected)

      * intitle:”i-Catcher Console – Web Monitor”

  6. kleer94 1 marca 2010 o godz. 16:26 #

    Jeden z najciekawszych artykulów, jakie znalazlem.

    Pierwsze slyszę, że google ma take uprawnienia.

  7. grafzero 3 marca 2010 o godz. 18:16 #

    robots.txt ma dwie twarze – tą złą jest to, że nie trzeba go "posłuchać" (jak wspomniano we wcześniejszych komentarzach) i jeśli podamy np: disallow /secret to będzie to wskazówka dla innych botów gdzie najlepiej szukać

  8. krzabr 3 marca 2010 o godz. 22:49 #

    Warto też zobaczyć w people searchach informacje o nas samych , można się sporo dowiedzieć ….

  9. tommat 29 marca 2010 o godz. 9:22 #

    Co do tych haseł to trochę przesada, podane zapytanie prowadzi do logów z teamspeaka, teamspeak podczas pierwszego startu generuje haslo admina i wklada je do logu, zadaniem administratora jest je znalezc i zmienic, nie widzę nic zdrożnego w publikowaniu tego typu logów dopóki admin zmienia hasło po pierwszym logowaniu. Poza tym po co komu dostep do serwera teamspeak?

  10. 443citroen_fan 17 czerwca 2010 o godz. 15:59 #

    dzięki za świetny artykuł ;]

  11. Outslider 29 września 2010 o godz. 19:42 #

    z tym botem to primo, ten plik niczego nie zabrania technicznie, tylko mówi robotowi: "Stary, no nie chcę, żebyś wchodził!". I GoogleBot generalnie tego słucha, bo nie ma interesu w łamaniu zasady. Natomiast jak twój Firefox przedstawi się serwerowi jako GoogleBot, to guzik firefoksa obchodzi robots.txt. To przed niczym nie chroni.

    Secundo: wpis disallow: / spowoduje zabronienie botowi przeglądania wszystkiego w witrynie, co w praktyce oznacza, że witryna zniknie z wyników wyszukiwarki.. Fajne? No nie bardzo…

  12. konkur4 9 grudnia 2010 o godz. 18:00 #

    Baza zapytań do poufnych informacji, które można znaleźć na google. Jest to pewnego rodzaju przestroga dla administratorów. Strona ta ma uświadomić administratorów o potencjalnym niebezpieczeństwie ze strony wyszukiwarki google, oraz jak ważne jest by prawidłowo konfigurować serwer.Zawiera ona zapytania do poufnych informacji, haseł, kopi baz danych i wiele wiele innych poufnych.

(wymagane)
URI
Uwaga! Niektóre komentarze, m.in. te dodane przez niezalogowanych i nowych użytkowników, są ręcznie moderowane. Jeśli Twój komentarz nie ukaże się od razu, nie dodawaj go ponownie, tylko cierpliwie poczekaj na akceptację.

Literówki najlepiej zgłaszać jabberem: michuk@jakilinux.org lub kocio@jabber.org!

W komentarzach możesz używać prostych znaczników HTML. Przykłady:
  • Link: <a href="jaklinux.org">Linux dla każdego</a>,
  • Wytłuszczenie: <strong>tekst pogrubiony</strong>,
  • Kursywa: <em>tekst pochylony</em>,
  • Przekreślenie: <del>tekst przekreślony</del>,
  • Kod: <code>printf("blok kodu");</code>,
  • Cytat: <blockquote>cytat</blockquote>
Uwaga: jeśli dodasz nieznany znacznik, będzie on niewidoczny, gdyż system filtruje takie znaczniki.