Descripción

Cada archivo de vídeo o audio dentro del corpus está asignado a un código único que permite identificarlo según varios criterios: el tipo de texto humorístico (mon=monólogo; chis=chiste; ske=sketch, ven=ventrílocuo), las características del hablante (sexo = M/H), la generación o edad (jóvenes = 1, adultos = 2, mayores = 3), la categoría profesional del hablante (no profesional = 0, profesional = 1), el código de la provincia y el número correspondiente dentro del corpus. Por ejemplo, el código 0171-CHI-BARH21 se interpreta como un chiste (el número 0171 dentro de Humcor) de un hablante varón, adulto, profesional, originario de la provincia de Barcelona.

En la transcripción de los archivos se han seguido las normas generales de escritura del español, con la excepción del uso de mayúsculas, que se limitan exclusivamente a los nombres propios. Para la codificación, se ha adoptado un sistema de marcas y etiquetas mínimas basado en el Standard Generalized Markup Language (SGML), de acuerdo con las especificaciones de la Text Encoding Initiative (TEI). No se emplean signos de puntuación convencionales; en su lugar, se utilizan marcas específicas para indicar pausas de distinta duración.