URLs de sitio web

Entrená con contenido web en vivo — páginas individuales o crawls automáticos de sitios enteros.

Las URLs son la fuente de conocimiento de mayor apalancamiento cuando tu contenido ya vive en un sitio público. ChatbotGen rastrea la página, extrae el texto legible y lo embebe junto al resto de tu data de entrenamiento.

Los dos modos

La pestaña URLs tiene dos modos: Add URL para una página individual, Crawl Website para descubrimiento masivo.

┌─ Knowledge › URLs ────────────────────────────────────────┐
│  [ Add URL ]  [ Crawl Website ]                           │
│  ─────────                                                │
│                                                           │
│  (cambia entre dos formularios según el modo)             │
└───────────────────────────────────────────────────────────┘

Add URL

El formulario más simple. Toma la URL de una página individual.

┌─ Add URL ─────────────────────────────────────────────────┐
│  Add a specific page URL. The content will be extracted   │
│  and used for training.                                   │
│                                                           │
│  [ example.com/about                          ] [ Add URL ]
└───────────────────────────────────────────────────────────┘

Si omitís el esquema, se normaliza a https://.

Crawl Website

Para cobertura de sitio entero, usá Crawl Website. Pegá la homepage y ChatbotGen descubre páginas automáticamente — primero desde el sitemap, después cayendo a scraping de links HTML.

┌─ Crawl Website ───────────────────────────────────────────┐
│  Enter your website's homepage. We'll check the sitemap   │
│  and discover pages automatically.                        │
│                                                           │
│  [ toptive.co                          ] [ Start Crawl ]  │
│                                                           │
│  Include paths (optional)    Exclude paths (optional)     │
│  [ /docs, /help            ] [ /blog, /admin            ] │
│  Only URLs starting with     Skip URLs starting with      │
│  these paths                 these paths                  │
└───────────────────────────────────────────────────────────┘

Después de hacer clic en Start Crawl vas a ver:

Crawling website... URLs will appear as they're discovered.

Las páginas aparecen en la lista de URLs a medida que el worker las encuentra y las encola. Esperá unos minutos para sitios de tamaño medio.

Include / exclude paths

Ambos filtros son prefijos de ruta separados por coma.

Include paths — solo conservar URLs cuya ruta empiece con uno de estos. Ejemplo: /help, /docs conserva el centro de ayuda + docs, descarta el resto.
Exclude paths — descartar URLs cuya ruta empiece con uno de estos. Ejemplo: /blog, /admin descarta posts del blog y páginas de admin.

Dejá ambos vacíos para crawlear todo lo que exponga el sitemap (hasta el tope duro — ver abajo).

Tope duro del crawl

Un solo crawl tiene tope en 1.000 URLs sin importar el plan. Los sitios más grandes necesitan ser acotados con include paths, o múltiples crawls dirigidos desde distintas raíces.

El límite de URLs por chatbot de tu plan aplica arriba de esto — ver Planes y precios.

Excluir una URL después

Si una página crawleada es ruidosa, abrila y activá el toggle Exclude from search. La URL queda en tu lista (y en la base) pero el retriever la ignora. Útil cuando querés poder re-incluirla después sin re-crawlear.

Eliminar la URL la borra permanentemente y libera el presupuesto de caracteres.

Re-crawl

Las URLs no se refrescan automáticamente. Para tomar cambios de una página, usá la acción Re-crawl de esa fila o disparar un crawl desde cero. Para contenido que cambia frecuentemente (precios, stock), considerá un par Q&A o integración de herramienta en su lugar.

Troubleshooting

Extracción vacía — la página está detrás de un login, o renderizada en un formato que nuestro scraper no puede leer. Probá con otra URL o pegá el contenido como fragmento de texto.
El crawl devolvió 0 URLs — robots.txt nos bloqueó, o la homepage devuelve 4xx/5xx. Confirmá que el sitio carga en una ventana de incógnito.
Status trabado en crawling — el worker sigue corriendo. Para sitios grandes puede tomar varios minutos.

← Anterior

Subir archivos

Preguntas y respuestas