I prinsippet foregår transkribering ved at vi lytter til – og skriver ned det som blir sagt i en video, setning for setning. Hvis tekst skal legges til som undertekster, må den i tillegg deles opp, og synkroniseres med videoen.
En video kan tekstet ord for ord, slik den høres, men som oftest forenkler vi teksten noe, f.eks hvis taleren snubler i begrepene, eller det kommer utilsiktede gjentakelser. Dette er arbeid som krever god språkforståelse.
Transkribering kan være enkelt eller tidkrevende blant annet avhengig av lydkvaliteten på opptakene. En monolog fra talerstol med mikrofon vil være enkel og rask å transkribere, men hvis folk snakker i munnen på hverandre eller det er mye bakgrunnstøy, vil vi ofte måtte lytte til en sekvens flere ganger for å fange opp innholdet.
Til hjelp ved transkribering kan vi også benytte digitale verktøy for automatisk talegjenkjenning. Resultatet avhenger også her av talens kvalitet og type. Opptak fra en monolog med tydelig uttale på norsk bokmål vil gi høyere automatisk gjenkjenningsprosent enn opptak der folk snakker i munnen på hverandre på dialekt. Automatisk talegjenkjenning må derfor som regel kombineres med manuelt arbeid for å gi et godt resultat.
Arbeid med transkribering og teksting faktureres etter avtalt timesats og estimert antall timer. Hvis vi får tilgang til videoene på forhånd, kan vi gjøre en vurdering av materiellets beskaffenhet og omfang, og gi et tilbud på jobben.