OpenAI ha recentemente introdotto una nuova generazione di modelli audio progettati per trasformare le interazioni vocali tra esseri umani e Intelligenze Artificiali. Dopo mesi di innovazioni focalizzate sugli agenti basati su testo, come Operator e Deep Research, l’attenzione si è spostata ora sulla comunicazione vocale. L’azienda ha reso disponibili potenti strumenti per la trascrizione e la sintesi vocale, con l’obiettivo di rendere gli agenti vocali sempre più realistici e adattabili alle esigenze degli sviluppatori. Prestazioni migliorate nella trascrizione vocale I nuovi modelli per il riconoscimento vocale, denominati gpt-4o-transcribe e gpt-4o-mini-transcribe, rappresentano un netto miglioramento rispetto alla precedente generazione basata su Whisper. Un vero e proprio salto evolutivo nell’elaborazione vocale. La precisione nella trascrizione risulta superiore, specialmente in scenari complessi dove […]
Source: EMC Emcelettronica