Descripció – HumCor

Per digitalitzar discos de vinil i cassets, s’utilitza una platina o un tocadiscs —segons el format d’origen—, un amplificador d’àudio i un ordinador. El senyal d’àudio provinent de la platina o del tocadiscs es transmet a l’ordinador a través de l’amplificador. Mitjançant programes de gravació com Audacity o Wavepad, es captura en un arxiu digital tot el contingut reproduït. Segons l’estat de conservació del casset o del disc, l’arxiu resultant pot requerir un processament addicional per eliminar sorolls i millorar la qualitat del so. Un cop optimitzat l’àudio, es transforma en un arxiu de vídeo afegint-hi una careta dissenyada específicament per a aquest tipus de continguts. Aquest procés s’automatitza mitjançant l’ús d’un script i el programari FFmpeg. Finalment, s’extreu manualment cada arxiu, es cataloga i s’etiqueta amb la informació corresponent per a la seva incorporació al corpus.

Cada arxiu de vídeo o àudio dins del corpus està assignat a un codi únic que permet identificar-lo segons diversos criteris: el tipus de text humorístic (mon=monòleg; chis=acudit; ske=sketch; ven=ventríloc), les característiques del parlant (sexe = M/H), la generació o edat (joves = 1, adults = 2, grans = 3), la categoria professional del parlant (no professional = 0, professional = 1), el codi de la província i el número corresponent dins del corpus. Per exemple, el codi 0171-CHI-BARH21 s'interpreta com un acudit (el número 0171 dins de Humcor) d'un parlant home, adult, professional, originari de la província de Barcelona.

En la transcripció dels arxius s'han seguit les normes generals d'escriptura de l'espanyol, amb l'excepció de l'ús de majúscules, que es limiten exclusivament als noms propis. Per a la codificació, s'ha adoptat un sistema de marques i etiquetes mínimes basat en el Standard Generalized Markup Language (SGML), d'acord amb les especificacions de la Text Encoding Initiative (TEI). No s'empren signes de puntuació convencionals; en el seu lloc, s'utilitzen marques específiques per indicar pauses de durada diferent.