Controllo vocale con GPT: rivoluzionare ChatGPT
Il 25 settembre 2023, OpenAI ha condiviso un video che dimostra il processo operativo di una nuova funzione.
La didascalia nel video recita: 'ChatGPT può ora vedere, ascoltare e parlare. Nelle prossime due settimane, gli utenti Plus potranno avere conversazioni vocali con ChatGPT (iOS e Android) e includere immagini nella conversazione (tutte le piattaforme).'
Ciò significa che il controllo vocale sarà applicato alla versione mobile di ChatGPT. Specificamente, possiamo guardare il video seguente:
Quindi, in quali aspetti il controllo vocale può essere riflesso?
La magia del controllo vocale
Il controllo vocale, un concetto apparentemente semplice, sta in realtà rivoluzionando le nostre vite.
Immagina, ti sei appena svegliato e tutto ciò che devi dire è 'Alexa, che tempo fa oggi?' e puoi ottenere le previsioni del tempo di oggi. Oppure, quando stai guidando, devi solo dire al tuo telefono, 'Hey Siri, naviga fino a Central Park', e puoi ottenere indicazioni dettagliate sul percorso.
Questa è la magia del controllo vocale, ci permette di controllare e interagire con i dispositivi intorno a noi nel modo più naturale e intuitivo: parlando.
Infatti, l'applicazione del controllo vocale ha superato di gran lunga la nostra immaginazione. Nelle case intelligenti, attraverso il controllo vocale, possiamo regolare la luminosità delle luci, cambiare i programmi TV, impostare la temperatura del condizionatore e persino far pulire automaticamente la stanza dall'aspirapolvere. Nell'industria automobilistica, il controllo vocale può aiutare i guidatori a navigare, rispondere alle chiamate e altre operazioni mentre entrambe le mani sono sul volante, migliorando notevolmente la sicurezza alla guida.
Quindi, come funziona il controllo vocale con ChatGPT?
L'integrazione perfetta di controllo vocale e ChatGPT
Immagina, non hai più bisogno di una tastiera o di un mouse, puoi comunicare con ChatGPT solo con la tua voce.
Puoi dire al tuo dispositivo: 'Per favore, aiutami a tradurre 'ciao' in francese', e poi ChatGPT ti fornirà informazioni e ti risponderà a voce. Questa integrazione rende l'interazione con ChatGPT più intuitiva e naturale, proprio come comunicare con una persona reale.
Questo tipo di interazione si ottiene attraverso modelli di apprendimento profondo e algoritmi di elaborazione del linguaggio naturale, rendendola ampiamente applicabile in diversi campi come l'elaborazione del linguaggio naturale, chatbot, generazione di testo e riconoscimento vocale.
E il controllo vocale eleva le potenti capacità di ChatGPT a un livello completamente nuovo. Il suo principio di funzionamento consiste nel convertire l'input vocale dell'utente in testo e poi inserire questi testi in ChatGPT. Dopo che ChatGPT elabora e genera risposte, queste risposte vengono poi convertite nuovamente in output vocale. Questo processo di conversione viene fatto in tempo reale, quindi gli utenti possono avere dialoghi immediati e continui con ChatGPT, proprio come comunicare con una persona reale.
Estensione controllo vocale
Come osservato nel video che abbiamo guardato in precedenza, è importante notare che, a questo punto del tempo, la funzione di controllo vocale per ChatGPT è disponibile esclusivamente su dispositivi mobili basati su sistemi operativi Android e iOS. Ciò significa che gli utenti di queste piattaforme specifiche possono godere della comodità di controllare la loro applicazione ChatGPT attraverso comandi vocali, migliorando la loro esperienza utente. Tuttavia, è interessante notare che altre piattaforme o sistemi operativi potrebbero non avere ancora questa capacità.
Quindi, stiamo implicando che la funzione di controllo vocale sia attualmente inaccessibile quando si utilizza ChatGPT su una piattaforma web?
In realtà, non è del tutto accurato. C'è in effetti una soluzione per gli utenti web che desiderano utilizzare il controllo vocale con ChatGPT. Possiamo installare una estensione specifica del browser denominata 'Controllo vocale per ChatGPT.' Questa estensione è progettata per fornire la funzionalità di comando vocale per gli utenti ChatGPT che accedono all'applicazione tramite browser web, superando così il limite precedentemente menzionato.
Come illustrato nell'immagine fornita sopra, possiamo osservare un cambiamento notevole dopo l'installazione dell'estensione di controllo vocale per ChatGPT. In particolare, appare una riga aggiuntiva proprio sotto la barra di input dell'interfaccia ChatGPT. Questa nuova funzione è progettata per convertire la voce in testo, rendendo molto più conveniente per gli utenti interagire con l'applicazione.
Per utilizzare questa funzione, tutto ciò che dobbiamo fare è premere e tenere premuta la barra spaziatrice. Mentre la barra spaziatrice è premuta, questa estensione ascolterà attivamente le nostre parole e le convertirà rapidamente in testo, che verrà poi inserito nella finestra di chat ChatGPT. Questo processo di conversione senza sforzo migliora l'esperienza utente facilitando l'interazione senza mani con l'applicazione.
Per quanto riguarda la lingua utilizzata per l'output vocale, possiamo vedere una funzione che soddisfa questa esigenza nell'interfaccia. Accanto al pulsante del microfono, c'è un'opzione per la selezione della lingua.
Questa funzione consente agli utenti di scegliere la lingua che preferiscono per l'output vocale. È progettato per fornire un'esperienza utente più personalizzata, soddisfacendo le diverse preferenze linguistiche degli utenti di tutto il mondo. Ciò significa che le risposte vocali da ChatGPT potranno essere ascoltate nella lingua selezionata dall'utente, offrendo un'esperienza più inclusiva e user-friendly.
Come illustrato nell'immagine sopra, una volta espansa l'opzione lingua, presenta una vasta gamma di 31 lingue diverse tra cui gli utenti possono scegliere. Questa funzione garantisce che l'applicazione si rivolga a un'ampia gamma di utenti con diversi contesti linguistici. Inoltre, nelle impostazioni, gli utenti hanno la flessibilità di modificare sia la voce che la velocità dell'output vocale in base alle loro preferenze personali.
Per impostazione predefinita, il sistema fornisce voci maschili e femminili. Tuttavia, se gli utenti desiderano altre qualità tonali o timbri, hanno l'opzione di installare queste voci aggiuntive da soli. Ciò offre un alto livello di personalizzazione, consentendo agli utenti di adattare la loro esperienza ChatGPT alle loro esigenze e preferenze uniche.
Tali operazioni possono essere inevitabilmente un po' complicate. C'è un modo per rendere il controllo vocale più semplice e pratico?
Monica: Un prodotto AI che introduce il controllo vocale per ChatGPT
Senza dubbio, la risposta è sì. Monica ha la capacità di rendere il controllo vocale di ChatGPT più semplice e pratico.
Infatti, per le persone che incontrano sfide nella digitazione, come anziani, disabili, persone non familiari con le apparecchiature informatiche e persino coloro che sono interessati ad imparare le lingue parlate, uno strumento più facile da usare sarebbe molto utile. Se queste persone cercano di interagire con l'IA utilizzando comandi vocali, Monica potrebbe essere uno strumento più adatto di ChatGPT.
Monica è progettata con interazione vocale, rendendola una scelta più accessibile e pratica per questi gruppi di utenti. Semplifica il processo di interazione e riduce la necessità di competenze di digitazione o navigazione estese. Pertanto, Monica potrebbe essere una soluzione più efficace per coloro che desiderano impegnarsi con la tecnologia AI utilizzando la voce, garantendo così che i benefici di questa tecnologia siano accessibili a un'ampia gamma di persone.
In primo luogo, Monica è progettata per essere uno strumento versatile che è compatibile con più piattaforme. Può essere utilizzato come plugin o accessibile tramite web, piattaforme mobili e desktop. Questa funzionalità multipiattaforma garantisce che gli utenti possano interagire comodamente con Monica indipendentemente dal dispositivo che stanno utilizzando.
Per fornire una comprensione completa del suo funzionamento, dimostreremo come utilizzare Monica sia sulla versione plugin che su quella mobile.
Versione estensione
Come possiamo vedere i pulsanti del microfono e dell'altoparlante, possiamo attivare la funzione di controllo vocale con un semplice clic.
Come l'estensione che abbiamo introdotto in precedenza, anche Monica supporta la selezione di 31 lingue.
Inizia registrazione: Fai clic sul pulsante o tieni premuto lo spazio per iniziare la registrazione.(Trasc rizione in tempo reale essere visualizzato quando si parla.)
Ferma la registrazione: Clicca nuovamente sul pulsante o rilascia Spazio per fermare la registrazione. (M essaggio verrà inviato automaticamente dopo lo stop. )
Annulla la registrazione: Clicca sull'icona Annulla o premi Esc per annullare la registrazione.
Modifica trascrizione: Clicca sull'icona Modifica o premi E per mettere la trascrizione corrente nell'input del messaggio per modificarla. (O nly disponibile quando il trascrizione non è vuota. )
Per quanto riguarda la funzione di output vocale, possiamo attivarla e disattivarla in qualsiasi momento facendo clic sul pulsante dell'altoparlante.
Versione mobile
Come la maggior parte del software sociale, quando non si vuole digitare, si può passare al controllo vocale per l'input.
Quando si utilizza Monica, la funzione di controllo vocale viene attivata premendo e tenendo premuto il pulsante "Tieni premuto per parlare" situato nella parte inferiore dell'interfaccia. Una volta premuto questo pulsante, gli utenti possono iniziare a dare comandi vocali. Rilasciando il pulsante, Monica elaborerà automaticamente l'input audio, riconoscerà il contenuto parlato e lo trascriverà sullo schermo. Questa funzione consente una transizione fluida da voce a testo, rendendo più semplice per gli utenti interagire con Monica attraverso comandi vocali.
Sebbene sia la piattaforma mobile che quella del plugin supportino il controllo vocale, non sono esattamente uguali.
Innanzitutto, è importante notare che le funzionalità di controllo vocale variano tra la piattaforma plugin e quella mobile. Sulla piattaforma plugin, Monica supporta sia l'input che l'output vocale, consentendo agli utenti di interagire con il sistema utilizzando comandi vocali e ricevere risposte audio.
Tuttavia, la piattaforma mobile supporta attualmente solo l'input vocale. Ciò significa che gli utenti possono dare comandi vocali, ma le risposte di Monica saranno in forma di testo in quanto non supporta ancora l'output vocale. Questa distinzione è fondamentale da considerare quando si sceglie la piattaforma che meglio si adatta alle proprie esigenze.
Inoltre, ci sono differenze nel modo in cui l'input vocale viene gestito sulle piattaforme plugin e mobile. Quando si utilizza l'input vocale sulla piattaforma plugin, il testo corrispondente alle parole pronunciate viene visualizzato in tempo reale sullo schermo. Ciò consente di vedere e verificare ciò che Monica sta trascrivendo mentre si parla. Inoltre, hai la possibilità di modificare l'input vocale digitando in qualsiasi momento, offrendoti un maggiore controllo sul processo di input.
Tuttavia, sulla piattaforma mobile, il processo è leggermente diverso. Il testo corrispondente al tuo input vocale verrà visualizzato solo una volta che avrai rilasciato il dito dal pulsante "Hold to Talk". Se il sistema di riconoscimento vocale interpreta male le tue parole, non hai la possibilità di modificare il testo trascritto. Invece, dovresti reinserire il tuo comando o la tua richiesta. Questa differenza di funzionalità tra le due piattaforme è importante da tenere a mente quando si decide quale piattaforma utilizzare.
Differenze e somiglianze tra il controllo vocale di Monica e ChatGPT
Innanzitutto, sia il controllo vocale di Monica che di ChatGPT supportano input e output su dispositivi mobili, e i loro principi di funzionamento sono gli stessi.
Tuttavia, bisogna ammettere che le prestazioni di riconoscimento dell'interazione vocale di Monica non sono personalizzate nel tono come ChatGPT 4.0.
Come abbiamo visto nel video all'inizio, il controllo vocale di ChatGPT 4.0 può essere quasi buono come una persona reale, mentre il tono dell'output del controllo vocale di Monica non è ancora realistico.
Anche se Monica è leggermente inferiore in termini di tono, eccelle in altre aree.
Monica può utilizzare il controllo vocale sia sulla piattaforma plugin che su quella mobile, mentre ChatGPT può attualmente utilizzare il controllo vocale solo sulla piattaforma mobile. Inoltre, il controllo vocale di ChatGPT deve essere attivato sia per l'input che per l'output allo stesso tempo, mentre Monica separa input e output, consentendo regolazioni in qualsiasi momento.
Se vuoi saperne di più sulle differenze e le somiglianze tra Monica e ChatGPT, puoi cliccare su Monica vs ChatGPT per visualizzare.
Con lo sviluppo e il progresso continuo della tecnologia dell'intelligenza artificiale, possiamo vedere che prodotti AI come Monica stanno gradualmente cambiando i nostri stili di vita e schemi di lavoro. Integrando perfettamente con ChatGPT, Monica ci offre un nuovo modo di interazione intuitivo ed efficiente, consentendoci di comunicare con l'AI attraverso il controllo vocale.
Se vuoi provare subito la combinazione del controllo vocale e ChatGPT, affrettati e fai clic per installare Monica estensioni chrome