Hoe u alle pagina's op een website kunt vinden – 8 eenvoudige manieren

146105

•

11 minuten gelezen

•

Auteur

Tatiana Tsyulia

Tatsiana is een digitale marketeer en contentschrijver bij SEO PowerSuite bedrijf, waar ze blogposts schrijft, SEO-copywriting doet en trends controleert met Google Analytics en Search Console. Tatsiana...

Datum

Sep 05, 2024

Hoe vind je alle bestaande pagina's op een website? Het eerste idee dat in je opkomt is om de domeinnaam van de site te googlen.

Maar hoe zit het met URL's die niet worden geïndexeerd? Of weespagina's? Of webcache?

Het vinden van alle pagina's op een website is vrij eenvoudig; Het vereist echter wat extra aandacht, aangezien er pagina's zijn die verborgen zijn voor de ogen van bezoekers of zoekbots. Deze gids toont 8 verschillende methoden om alle pagina's van de site te vinden, samen met de tools die u kunt gebruiken.

Zo kunt u alle pagina's op een website vinden:

Zoek het op met de zoekoperatoren van Google
Controleer het robots.txt-bestand
Bekijk de sitemap
Crawl met een SEO-spider
Controleer uw pagina's in Search Console
Gebruik Google Analytics
Analyseer logboeken
Werk met je CMS

Inhoud

Waarom u mogelijk alle pagina's op een website moet vinden
1. Zoek het op met de zoekoperatoren van Google
2. Controleer het robots.txt-bestand
3. Bekijk de sitemap
4. Crawl met een SEO-spider
5. Controleer uw pagina's in Search Console
6. Gebruik Google Analytics
7. Analyseer logboeken
8. Werk met je CMS

Waarom u mogelijk alle pagina's op een website moet vinden

Er zijn talloze redenen waarom u mogelijk alle pagina's op een website moet vinden. Om er een paar te noemen:

1. Om de website van een nieuwe klant te controleren en indexeringsproblemen op te sporen.

Technische problemen zoals verbroken links, serverfouten, lage paginasnelheid of slechte mobiele bruikbaarheid zorgen ervoor dat Google de pagina's niet kan indexeren. Site-audits laten dus zien hoeveel URL's een site heeft en welke daarvan problematisch zijn. Uiteindelijk helpt het SEO's om de omvang van toekomstige werkzaamheden in het project in te schatten.

2. Om de pagina's van uw eigen site te detecteren die niet per ongeluk zijn geïndexeerd.

Als uw website dubbele inhoud bevat, kan Google mogelijk niet alle dubbele inhoud indexeren. Hetzelfde geldt voor lange redirect-ketens en 404-URL’s: als er veel op een site staan, wordt het crawlbudget tevergeefs uitgegeven. Als gevolg hiervan bezoeken de zoekbots de site minder vaak en wordt deze over het algemeen slechter geïndexeerd. Daarom zijn regelmatige audits nodig, zelfs als iets er over het algemeen normaal uitziet.

3. Om geïndexeerde pagina's te herkennen die niet bedoeld zijn voor indexering door Google.

Sommige pagina's zijn niet nodig in de zoekindex, bijvoorbeeld inlogpagina's voor beheerders, pagina's in ontwikkeling of winkelwagentjes. Toch kunnen deze pagina's tegen uw wil worden geïndexeerd vanwege tegenstrijdige regels of fouten in uw technische bestanden. Als u bijvoorbeeld uitsluitend op robots.txt vertrouwt om een pagina niet toe te staan, kan de URL nog steeds worden gecrawld en in de zoekresultaten worden weergegeven.

4. Om verouderde pagina's te vinden en een volledige inhoudsrevisie te plannen.

Google streeft ernaar zijn gebruikers de best mogelijke resultaten te bieden, dus als uw inhoud van slechte kwaliteit, dun of dubbel is, kan het zijn dat deze niet wordt geïndexeerd. Het is goed om een lijst te hebben van al uw pagina's, zodat u weet welke onderwerpen u nog niet heeft behandeld. Met al uw contentinventaris bij de hand, kunt u uw contentstrategie effectiever plannen.

5. Om weespagina's te vinden en koppelingsstrategieën te plannen.

Orphans zijn pagina's zonder inkomende links, waardoor gebruikers en zoekbots ze zelden of helemaal niet bezoeken. Weespagina's kunnen in Google worden geïndexeerd en onbedoelde gebruikers aantrekken. Een groot aantal verweesde pagina's op een website doet echter afbreuk aan zijn autoriteit: de structuur van de site is niet kristalhelder, de pagina's kunnen er nutteloos of onbelangrijk uitzien, en al het dode hout zal de totale zichtbaarheid van de website aantasten.

6. Om een website opnieuw te ontwerpen en de architectuur ervan te veranderen.

Om het herontwerp van een website te plannen en de gebruikerservaring te verbeteren, moet u eerst alle pagina's en relevante statistieken vinden.

Een duidelijke en georganiseerde structuur met een logische hiërarchie van alle pagina's kan zoekmachines helpen uw inhoud gemakkelijker te vinden. Alle belangrijke URL's moeten dus binnen één, twee of drie klikken vanaf de startpagina bereikbaar zijn.

Hoewel de gebruikerservaring geen invloed heeft op het crawlen en de ranking, is deze wel van belang voor de kwaliteitssignalen van uw website: succesvolle aankopen, het aantal terugkerende bezoekers, paginaweergaven per bezoeker en nog veel meer andere statistieken laten zien hoeveel uw website nuttig is voor de bezoekers.

7. Om websites van concurrenten te analyseren.

Door de pagina's van uw concurrenten te controleren, kunt u dieper ingaan op hun SEO-strategieën: onthul hun pagina's met het meeste verkeer, de meest gelinkte pagina's, de beste verwijzingsbronnen, enz. Op deze manier krijgt u waardevolle inzichten en leert u dat dit goed werkt voor uw concurrenten.. U kunt hun technieken lenen en de resultaten vergelijken om te zien hoe u uw eigen website kunt verbeteren.

Er zijn veel manieren om alle pagina's op een website te vinden, maar voor elk geval kunt u daarvoor een andere methode gebruiken. Laten we dus eens kijken naar de voor- en nadelen van elke methode en hoe u deze zonder gedoe kunt toepassen.

1. Zoek het op met de zoekoperatoren van Google

Met Google Zoeken kunt u snel alle pagina's van een website vinden. Voer eenvoudigweg "site: uw domein" in de zoekbalk in en Google toont u alle pagina's van de website die het heeft geïndexeerd.

De sitezoekoperator retourneert alle URL's die Google op uw website vindt

De resultaten van site:search tonen alle URL's die Google op uw site heeft gevonden

Het is echter belangrijk om te onthouden dat de zoekresultaten die worden weergegeven door de operator 'site:' niet noodzakelijkerwijs het exacte aantal geïndexeerde pagina's van uw site weerspiegelen.

Ten eerste is er geen garantie dat Google elke pagina direct nadat deze is gecrawld, zal indexeren. Het kan om verschillende redenen bepaalde pagina's uitsluiten van de index: het beschouwt sommige pagina's bijvoorbeeld als dubbel of van lage kwaliteit.

Ten tweede kan de zoekoperator 'site:' ook pagina's weergeven die van uw website zijn verwijderd, maar deze worden bewaard als in het cachegeheugen opgeslagen of gearchiveerde pagina's op Google.

Daarom is de zoekopdracht 'site:' een goed begin om een globaal beeld te krijgen van hoe groot uw site is. Maar om de rest van de pagina's te vinden die mogelijk ontbreken in de index, hebt u een aantal andere hulpmiddelen nodig.

2. Controleer het robots.txt-bestand

‌Robots.txt is een technisch bestand dat zoekbots instrueert hoe ze uw website moeten crawlen, met behulp van de regels voor toestaan/niet toestaan voor individuele pagina's of hele mappen.

Het bestand toont dus niet alle pagina's op uw site. Het kan u echter helpen pagina's te vinden die niet toegankelijk zijn voor zoekbots.

Hoe

Hier volgen de stappen voor het vinden van de beperkte pagina's met behulp van robots.txt:

Zoek het robots.txt-bestand op de website. Het bevindt zich meestal in de hoofdmap, dus u kunt example.com/robots.txt typen, en daar zal het zijn.
Open het bestand in een teksteditor of browser.
Kijk naar de regel 'User-agent' die de crawler van de zoekmachine specificeert waarop de volgende regels van toepassing zijn.
Zoek naar de regels voor 'Niet toestaan'. Deze regels specificeren de pagina's of mappen waartoe de crawler van de zoekmachine geen toegang heeft.
Als u deze heeft gevonden, onderzoek dan de URL's en mappen die zijn geblokkeerd.

Hier is een voorbeeld van robotsrichtlijnen voor YouTube.

Robotrichtlijnen voor YouTube

Robotrichtlijnen voor de YouTube-website

Controleer hoe het werkt. De aanmeldingspagina is bijvoorbeeld niet toegestaan. U kunt deze echter nog steeds krijgen wanneer u op Google zoekt. Merk op dat er geen beschrijvende informatie beschikbaar is voor de pagina.

Er wordt een pagina weergegeven die niet is toegestaan door robots-richtlijnen

Een pagina die niet is toegestaan door robots-richtlijnen, wordt weergegeven in de zoekresultaten

Het is noodzakelijk om uw robots.txt-regels opnieuw te controleren om er zeker van te zijn dat al uw pagina's correct worden gecrawld. Mogelijk hebt u dus een tool zoals Google Search Console of een sitecrawler nodig om deze te beoordelen. Ik zal er zo even bij stilstaan.

En als je tot nu toe meer wilt weten over het doel van het bestand, lees dan deze handleiding over het verbergen van webpagina's voor indexering.

3. Bekijk de sitemap

Een sitemap is een ander technisch bestand dat webmasters gebruiken voor een goede site-indexering. Dit document, vaak in XML-formaat, vermeldt alle URL's op een website die geïndexeerd moeten worden. Een sitemap is een waardevolle bron van informatie over de structuur en inhoud van een website.

Grote websites kunnen meerdere sitemaps hebben: aangezien het bestand qua grootte beperkt is tot 50.000 URL's en 50 MB, kan het in meerdere worden opgesplitst en een aparte sitemap bevatten voor mappen, afbeeldingen, video's, enz. E-commerceplatforms zoals Shopify of Wix automatisch sitemaps genereren. Voor anderen zijn er plug-ins of sitemapgeneratortools om de bestanden te maken.

Hoe

Met de sitemap van een website kunt u bijvoorbeeld gemakkelijk alle pagina's vinden en ervoor zorgen dat ze worden geïndexeerd:

Zoek naar een link naar de sitemap in de voettekst of koptekst van de website. De sitemap bevindt zich meestal op uwdomein.com/sitemap.xml of een vergelijkbare URL. U kunt ook het bestand van de robot controleren, omdat dit de meest gebruikelijke plaats is om een verwijzing naar de sitemap op te nemen.
Open de sitemap in een teksteditor of XML-viewer.
Kijk naar de <loc>-tags in het sitemapbestand. Deze tags bevatten de URL van elke pagina op de website.
U kunt de URL's van de <loc>-tags naar een spreadsheet of tekstdocument kopiëren.

Een voorbeeld van een sitemap met alle subcategorieën

Een voorbeeld van verschillende sitemaps waarin alle pagina's van een website worden vermeld

Je moet ook zo nu en dan de juistheid van je sitemap opnieuw controleren, omdat deze ook problemen kan hebben: deze kan leeg zijn, reageren met een 404-code, lang geleden in de cache zijn opgeslagen, of het kan eenvoudigweg de verkeerde URL's bevatten die je niet wilt. in de index verschijnen.

Een goede methode om uw sitemap te valideren is door een website-crawltool te gebruiken. Er zijn verschillende websitecrawlertools online beschikbaar, en een daarvan is WebSite Auditor, een krachtige SEO-tool voor sitebrede audits. Laten we eens kijken hoe u hiermee alle pagina's op een website kunt vinden en technische bestanden kunt valideren.

4. Crawl met een SEO-spider

Deze stap vereist WebSite Auditor. Je kunt het nu gratis downloaden. Downloaden WebSite Auditor

Hoe

Zo kunt u WebSite Auditor gebruiken om alle pagina's op uw website te vinden:

Start WebSite Auditor en typ de URL van uw website om een nieuw project te maken.
Vink het vakje Geavanceerde instellingen aan en voltooi de installatie en geef de exacte crawlparameters aan. (Als u nog niet weet waar u op moet letten, sla dan de geavanceerde instellingen over en laat de SEO-spin uw site doorzoeken met de standaardinstellingen.)
In de Geavanceerde instellingen heeft u verschillende opties om ervoor te zorgen dat de websitecrawler alle pagina's vindt. Vink bijvoorbeeld Zoeken naar weespagina's aan en alle URL's worden verzameld zonder inkomende links.

U kunt de instructies voor een bepaalde zoekbot of user-agent opgeven; vertel de crawler dat hij URL-parameters moet negeren, een met een wachtwoord beveiligde site moet crawlen, een domein alleen of samen met subdomeinen moet crawlen, enz.

De webcrawler instellen om alle pagina's te vinden, inclusief wees-URL's

De webcrawler instellen om alle pagina's te vinden, inclusief de pagina's die niet zijn gekoppeld aan andere pagina's

Nadat u op OK hebt geklikt, controleert de tool uw site en verzamelt alle pagina's in de sectie Sitestructuur > Pagina's.

WebSite Auditor helpt u opnieuw te controleren of de URL's correct zijn geoptimaliseerd voor zoekmachines. U zult de tool binnen een paar minuten leren kennen, omdat de installatie snel is en de interface behoorlijk intuïtief is.

Hier is een korte videohandleiding voor u:

Laten we eens kijken wat u kunt bereiken met de websitecrawltool.

Verzamel de lijst met pagina's met al hun bronnen

Op het tabblad Alle pagina's kunt u de lijst sorteren op URL, titel of een andere kolom door op de kolomkop te klikken.

Bekijk de lijst met alle pagina's met alle bronnen erop in de sectie Sitestructuur > Pagina's

Bekijk de lijst met alle pagina's met alle bronnen erop in de sectie Sitestructuur > Pagina's

Website Auditor downloaden

U kunt het zoekvak gebruiken om de lijst met pagina's te filteren op trefwoord of pagina-URL. Dit kan handig zijn als u naar een specifieke pagina of een groep pagina's zoekt.

Bovendien kunt u zichtbare kolommen toevoegen om meer informatie over deze pagina weer te geven, zoals metatags, koppen, trefwoorden, omleidingen of andere SEO-elementen op de pagina.

Ten slotte kunt u op een willekeurige URL klikken om alle bronnen op de pagina in de onderste helft van de werkruimte te bekijken.

Alle gegevens kunnen in de tool worden verwerkt of worden gekopieerd/geëxporteerd in CSV- of Excel-formaat.

Ontvang lijsten met pagina's die zijn getroffen door technische fouten

In het gedeelte Sitecontrole worden lijsten met pagina's weergegeven, opgesplitst op type fouten, zoals:

Dubbele problemen
Defecte omleidingen en omleidingsketens
Pagina's die niet mogen worden geïndexeerd
Gebroken bronnen

Vind alle pagina's van de site, gerangschikt op basis van hun type fouten

Vind alle pagina's van de site, gerangschikt op basis van hun type fouten

Website Auditor downloaden

Onder elk type probleem ziet u een uitleg waarom deze factor belangrijk is en enkele suggesties voor het oplossen ervan.

Bekijk de gevisualiseerde sitestructuur

Bovendien kunt u uw visuele sitemap bekijken in Sitestructuur > Visualisatie, waarin de relaties tussen al uw URL’s worden weergegeven. Met de interactieve kaart kunt u pagina's en links toevoegen of verwijderen om de structuur van uw site aan te passen. U kunt de interne PageRank-waarde opnieuw berekenen en de paginaweergaven controleren (zoals bijgehouden door Google Analytics).

Visualisatie van de sitestructuur

Bekijk alle pagina's van de site in een visuele sitemap

Website Auditor downloaden

Gebruik generatortools om technische bestanden te valideren

Bovendien controleert WebSite Auditor ook de beschikbaarheid van zowel uw robots.txt-bestand als de sitemap.

Hiermee kunt u de technische bestanden in de websitetools bewerken en deze met de juiste instellingen rechtstreeks naar uw site uploaden.

Hulpprogramma voor het genereren van sitemaps in Website Auditor

Een sitemap maken in WebSite Auditor

U hoeft geen speciale syntaxis in acht te nemen bij het bewerken van de bestanden; selecteer gewoon de vereiste URL's en pas de noodzakelijke regels toe. Klik vervolgens om de bestanden te genereren en ze op uw computer op te slaan of via FTP naar de site te uploaden.

Robots.txt-generatortool in WebSite Auditor

Robotrichtlijnen bewerken in WebSite Auditor

Website Auditor downloaden

5. Controleer uw pagina's in Search Console

Nog een geweldig hulpmiddel om alle pagina's van uw site te ontdekken is Google Search Console. Het zal u helpen de indexering van de pagina's te controleren en de problemen aan het licht te brengen die zoekbots belemmeren deze URL's correct te indexeren.

Hoe

U kunt een overzicht krijgen van al uw pagina's op basis van hun indexeringsstatus, inclusief de pagina's die nog niet zijn geïndexeerd.

U kunt als volgt alle pagina's van uw site vinden met Search Console:

1. Ga naar het Indexeringsrapport en klik op Gegevens over geïndexeerde pagina's bekijken. U ziet alle pagina's die de zoekbot het laatst op uw website heeft gecrawld. Houd er echter rekening mee dat er een limiet in de tabel geldt van maximaal 1.000 URL's. Er is een snelfilter om alle bekende pagina's van alle ingediende URL's te sorteren, enz.

Alle geïndexeerde pagina's in Google Search Console

Alle geïndexeerde pagina's in Search Console

2. Schakel het tabblad Niet geïndexeerd in. Hieronder geeft de tool u details over waarom elke URL niet wordt geïndexeerd.

Pagina's die niet door Google zijn geïndexeerd

Alle sitepagina's die Google nog niet heeft geïndexeerd

Klik op elke reden en bekijk de URL's waarop het probleem betrekking heeft.

De moeilijkheid is dat u niet alleen de hoofd-URL's van uw pagina's te zien krijgt, maar ook ankerlinks, pagineringspagina's, URL-parameters en ander afval dat handmatig moet worden gesorteerd. En de lijst is mogelijk onvolledig vanwege de limiet van 1.000 vermeldingen in de tabel.

Houd er onder andere rekening mee dat verschillende zoekmachines andere indexeringsregels kunnen hebben, en dat u hun webmasterhulpprogramma's moet gebruiken om dergelijke problemen op te sporen en op te lossen. Gebruik bijvoorbeeld Bing Webmaster- tools, Yandex Webmaster, Naver Webmaster en anderen om de indexering in de betreffende zoekmachines te controleren.

6. Gebruik Google Analytics

Ik denk dat Google Analytics een van de meest gebruikte analyseplatforms is, dus elke website-eigenaar of redacteur is ermee bekend. Het goede oude Universal Analytics wordt binnenkort vervangen door Google Analytics 4. Laten we dus beide versies van de tool bekijken.

Hoe

Volg deze stappen om de pagina's van uw site in Universal Analytics van Google te verzamelen:

Selecteer in uw Google Analytics-account de website die u wilt verkennen.
Ga naar de module Gedrag in de linkerzijbalk.
Selecteer Site-inhoud > tabblad Alle pagina's. U zou nu een lijst moeten zien met alle pagina's op uw website die zijn bijgehouden door Google Analytics.

Al uw pagina's bekijken in Universal Analytics van Google

Al uw pagina's bekijken in Universal Analytics

U ziet de pagina's met hun gebruikersgedragsstatistieken, zoals paginaweergaven, bouncepercentage, gemiddelde tijd op de pagina, enz. Let op pagina's met het minste aantal paginaweergaven aller tijden; waarschijnlijk zijn dit verweesde pagina's.

Om een soortgelijke stroom opnieuw te creëren in Google Analytics 4:

Ga naar Rapporten > Betrokkenheidsmodule.
Selecteer de sectie Pagina's en schermen.
Wijzig de dimensie van Paginatitel en schermklasse in Paginapad en schermklasse. U zou nu een tabel moeten zien met alle URL's op uw website die zijn bijgehouden door Google Analytics 4.

Alle pagina's in Google Analytics ophalen 4

Al uw websitepagina's vinden in Google Analytics 4

Net als bij de console bevat het URL-parameters en dergelijke. U kunt de lijst met pagina's exporteren als CSV- of Excel-blad door op de knop Exporteren bovenaan de pagina te klikken.

7. Analyseer logboeken

Sommige websites zijn erg groot, en zelfs krachtige SEO-spiders kunnen moeite hebben om al hun pagina's te doorzoeken. Loganalyse is een goede optie voor het vinden en onderzoeken van alle pagina's op grote websites.

Door het logbestand van uw website te analyseren, kunt u alle pagina's identificeren die bezoekers van internet ontvangen, hun HTTP-reacties, hoe vaak crawlers de pagina's bezoeken, enzovoort.

Logbestanden bevinden zich op uw server en u hebt het vereiste toegangsniveau nodig om deze op te halen, evenals een loganalysetool. Deze methode is dus meer geschikt voor technisch onderlegde mensen, webmasters of ontwikkelaars.

Hoe

Hier volgen de stappen om alle pagina's van uw site te vinden met behulp van loganalyse:

Download de serverlogboeken van uw website en open ze met de loganalysetool van uw keuze.
Filter de loggegevens op HTTP-statuscode. Het helpt u bij het identificeren van alle pagina's op uw website die bezoekers hebben getrokken.
Zoek naar logboekvermeldingen met een statuscode 200 die aangeeft dat de pagina met succes is geopend. U kunt ook filteren op andere statuscodes om pagina's te vinden die zijn omgeleid, zoals 301- of 302-omleidingen.
Net als bij andere tools kunt u de lijst met pagina's exporteren naar een spreadsheet of een ander formaat voor verdere analyse.

8. Werk met je CMS

Een andere manier om alle pagina's op een website te vinden is door naar uw Content Management Systeem (CMS) te verwijzen, aangezien dit alle URL's bevat van de website die u ooit heeft gemaakt. Een voorbeeld van CMS'en is Wordpress of Squarespace, die tools voor het bouwen van websites bevatten voor het bewerken van inhoud in verschillende domeinen: nieuws en bloggen, e-commerce, bedrijfssites en dergelijke.

Hoe

Hoewel CMS'en qua uiterlijk nogal verschillen, zijn de algemene stappen op de meeste van hen van toepassing:

Log in op uw CMS-dashboard en navigeer naar de pagina- of berichtsectie.
Zoek naar een lijst met alle pagina's of berichten op uw website – in een zijbalk, submenu of aparte pagina.
Klik op de link Alle pagina's of Alle berichten om een lijst met alle pagina's op uw website te bekijken.

Houd er rekening mee dat er categorieën, blogposts of landingspagina's kunnen zijn. Dit zijn verschillende soorten pagina's die tot verschillende secties in het CMS kunnen behoren.

Vind alle pagina's van uw site in WordPress CMS

Vind alle pagina's van uw site in WordPress CMS

Bij de meeste CMS'en kunt u de URL's sorteren op datum van creatie, auteur, categorie of andere criteria. U kunt ook het zoekvak gebruiken om de lijst met pagina's te filteren op trefwoorden of titels.

Samenvatting

Om alle pagina's op een website te vinden, is er een groot aantal methoden en hulpmiddelen. Welke u kiest, hangt af van het doel en de omvang van het werk dat u moet doen.

Ik hoop dat u deze lijst nuttig heeft gevonden en dat u nu gemakkelijk alle pagina's van uw site kunt verzamelen, zelfs als u nog niet bekend bent met SEO.

Als je een vraag hebt die nog niet beantwoord is, stel deze dan gerust in onze gebruikersgroep op Facebook.

Article stats:

Linking websites	N/A
Backlinks	N/A
InLink Rank	N/A

Data van: tool voor het controleren van backlinks.