Para digitalizar los discos y los casetes, se emplea una pletina o un tocadiscos —según el formato de origen—, un amplificador de audio y un ordenador. La señal de audio proveniente de la pletina o del tocadiscos se transmite al ordenador a través del amplificador. Con programas de grabación como Audacity o Wavepad, se captura en un archivo digital todo el contenido reproducido. Dependiendo del estado de conservación del casete o del disco, el archivo resultante puede requerir procesamiento adicional para eliminar ruidos y mejorar la calidad del sonido. Una vez optimizado el audio, se transforma en un archivo de vídeo añadiendo una careta diseñada específicamente para este tipo de contenidos. Este proceso se automatiza mediante el empleo de un script y el software FFmpeg. Por último, se extrae manualmente cada archivo, se cataloga y etiqueta con la información correspondiente para su incorporación al corpus.
Cada archivo de vídeo o audio dentro del corpus está asignado a un código único que permite identificarlo según varios criterios: el tipo de texto humorístico (mon=monólogo; chis=chiste; ske=sketch, ven=ventrílocuo), las características del hablante (sexo = M/H), la generación o edad (jóvenes = 1, adultos = 2, mayores = 3), la categoría profesional del hablante (no profesional = 0, profesional = 1), el código de la provincia y el número correspondiente dentro del corpus. Por ejemplo, el código 0171-CHI-BARH21 se interpreta como un chiste (el número 0171 dentro de Humcor) de un hablante varón, adulto, profesional, originario de la provincia de Barcelona.
En la transcripción de los archivos se han seguido las normas generales de escritura del español, con la excepción del uso de mayúsculas, que se limitan exclusivamente a los nombres propios. Para la codificación, se ha adoptado un sistema de marcas y etiquetas mínimas basado en el Standard Generalized Markup Language (SGML), de acuerdo con las especificaciones de la Text Encoding Initiative (TEI). No se emplean signos de puntuación convencionales; en su lugar, se utilizan marcas específicas para indicar pausas de distinta duración.