Az AI hangdiktálásnak köszönhetően egyre többen mondják ki e-maileiket, üzeneteiket és kódjukat
Gavin McNamara feladta a billentyűzetét, és egész nap beszéléssel tölti a gépelést.
Órákon át beszél a számítógépével és a telefonjával, e-maileket küld, prezentációkat ír, posztol a LinkedIn-en, sőt beszélgetéseken keresztül kódol a San Francisco-i induló AI-diktáló alkalmazás, a Wisp Flow segítségével.
A mesterséges intelligencia írásjeleket ír, formázza és koherens másolattá alakítja át a csevegést. McNamara átlagos gépelési sebessége 125 szó percenként, ami kétszerese az átlagos gépelési sebességnek.
„Ebben a pillanatban bármit meg lehet tenni gépeléssel, azt beszéddel teszem” – mondta a Why Not Us szoftverügynökség 32 éves alapítója. – Csak beszélek.
Az elmúlt öt hónapban közel 300 000 szót diktált 77 alkalmazásban – ez három regény megírásának felel meg.
A kaliforniai technológiai titánok és startupok élen járnak abban a mozgalomban, hogy mesterséges intelligenciát és nagyobb nyelvi modelleket használnak annak érdekében, hogy az emberek a technológiával interakcióba léphessenek az ujjaik helyett a hangjukkal.
„Az AI és az LLM megváltoztatta a dinamikát” – mondta CJ Pace, a Handy, egy San Diego-i alapú ingyenes hang-szöveg diktálóalkalmazás alkotója. „A hangod használata sokkal gyorsabb, mint a gépelés.”
Független fejlesztők és induló vállalkozások keveréke, köztük Handy, a San Francisco-i Wisp Flow és a Willow, és mások jelentek meg, hogy pontos hanginterakciót kínáljanak a mesterséges intelligenciával.
A technológia legnagyobb nevei új módokat teremtenek az MI-vel való együttműködésre. A Meta legújabb okosszemüvege a hangra támaszkodik. Az OpenAI és a Meta különböző személyiségeket tervezett a botok hangcsevegéséhez. Még az Amazon Alexa és az Apple Siri is mesterséges intelligencia-frissítéseken megy keresztül, amitől a cégek azt remélik, hogy mindenki többet beszél technológiájukról.
A kimondott szavak számítógépes használatának ezen ingyenes és fizetős módszerei felhasználók millióit vonzották, köztük kódolókat, vezetői asszisztenseket, ügyvédeket, tartalomkészítőket és orvosokat. Egyes optimisták úgy gondolják, hogy a billentyűzet elavulttá válhat.
„Örömmel jelentem be, hogy eltávolítottuk a billentyűzeteket a világ legrangosabb televíziós díjai közül” – mondta Alan Guo, a Willow alapítója a LinkedIn-en közzétett bejegyzésében, megjegyezve, hogy az Emmy-díjátadó csapat a Willow hangdiktálását használta a Slack üzenetek küldésére és a beérkező levelek gyorsabb törlésére a 2026-os díjakra való felkészülés során.
Az elmúlt néhány évben a nagy technológiai cégek számos terméküket hang-first funkciókkal szabták testre a kényelem érdekében. Napjainkban eltávolodtak a hangról, mint elérhető termelékenységi eszközről.
2022 végén a ChatGPT megalkotója korlátlan hozzáférést adott át a Whisper nevű automatikus beszédfelismerő modelljéhez, amely 680 000 órányi többnyelvű adattal készült. Az OpenAI megosztja a technológiát a pontos hangátíráshoz, amely egykor szigorúan őrzött nagy technikai titok volt. Mostantól bárki ingyenesen letölthet és futtathat kiváló minőségű mesterséges intelligencia átírást laptopján.
Az AI diktálóalkalmazások új hulláma a Whispert használja alapként, és arra építve kínál élő diktálást. Bár léteznek ingyenes opciók, a fizetett előfizetések havi 8 és 12 dollár között vannak.
A mesterséges intelligencia által vezérelt diktálás egyre népszerűbb a programozók és a rendszeres felhasználók körében egyaránt – és arra készteti az embereket, hogy a laptopjukhoz beszéljenek. Legyen szó e-mailek írásáról, SMS-ek küldéséről, webhelyek tervezéséről vagy mesterséges intelligencia-feladatok kézbesítéséről, a korai alkalmazók szerint a diktálás lehetővé teszi számukra, hogy gyorsabban dolgozzanak, tisztábban gondolkodjanak és termelékenyebbek legyenek.
„Azok az emberek, akik nagymértékben alkalmazták a hangot, nem térnek vissza. Ha heti 20 órában a laptopjába beszél, a gépelés súrlódásnak tűnik” – mondta Naveen Naidu, a New York-i székhelyű Monologue hangdiktáló alkalmazás vezérigazgatója. „Szerintem ide vezet: a Voice lesz a delegációs réteg. Kimondod a szándékodat, és megtörténnek a dolgok.”
Ezek az új mesterséges intelligencia diktáló alkalmazások kihasználják az Apple fejlett chipjeit iPhone és Mac számítógépeken, hogy személyes diktálást hajtsanak végre az eszközön.
Geoffrey Huntley szabadúszó szoftverfejlesztő júniusban szinte teljes egészében a Voice for Work-ra váltott.
Gyakran úgy indít projekteket, hogy megnyit egy hangutasítást, és megkéri az AI-t, hogy készítsen interjút aggodalmairól és a projekt követelményeiről, mielőtt bármilyen kódot generálna.
„Úgy beszélek vele, mintha egy jazz zenekarban riffelnék, hátra, előre, hátra, előre” – mondta Huntley. Ez az énektánc segít finomítani a specifikációkat, majd az AI átveszi a kormányt, és megépíti a szoftvert.
A kódoláson túl a Huntley hangot is használ, hogy „hagyja ripni” a blogbejegyzés-ötletek vagy üzenetek rögzítésekor, és olyan alkalmazásokat használ, mint a SuperWhisper vagy a Whisper Flow, hogy „első gyűjtőhelyet” szerezzen az ötletekből, mielőtt a billentyűzethez fordulna a végső szerkesztéshez.
Egyre több szoftverfejlesztő a Szilícium-völgyben órákat tölt a kódolási utasítások diktálásával ahelyett, hogy gépelne. A gyorsan mozgó mesterséges intelligencia ügynökök kombinációja, akik órákon át kódolnak, és a hangbevitel gyorsabban rögzíti az ötleteket, mint a gépelés, növelte a termelékenységüket.
A magát „vibe kódolónak” nevezett McNamara több mint 25 webalkalmazást hozott létre néhány hónap alatt, olyan sebességgel, amely hangutasítások nélkül lehetetlen lenne.
McNamara azt mondta: „Nem hiszem, hogy a (gépelés) olyan hatékony vagy eredményes lenne a cél elérésében, mint a beszélgetés során.”
Egy kanyargós beszélgetést és néhány órát használtak fel arra, hogy a mesterséges intelligencia Sprout Gifts-t, egy ajándéknyilvántartást gyerekeknek és egy alkalmazást hozzon létre, amellyel bármilyen elemet fotókon keresztül értékelhettek.
Az biztos, hogy az AI hibázhat, és a működését ellenőrizni kell.
Eközben a széles körben elterjedt alkalmazás újabb kellemetlenségeket hozott, és még a nagy teljesítményű felhasználók is kínosan érzik magukat a laptopjukhoz beszélni. A zsúfolt nyitott irodákat nem úgy tervezték, hogy egyszerre többen is kommunikálhassanak számítógépükkel.
„Szeretem a hangzást, de nem irodai környezetben” – mondta az X egyik felhasználója.
McNamara fejhallgatót használ, így az emberek azt hiszik, éppen telefonál.
„Olyan ez, mint egy közösségi hack” – mondta.
Bár még túl korai megmondani, hogy a QWERTY billentyűzetek mikor válnak elavulttá a szalagos és faxgépek után, a hangzás üteme egyre gyorsul – mondta Dylan Fox, a San Francisco-i székhelyű Assembly AI alapítója, amely audiomodelleket kínál a vállalatoknak.
„Minden bizonnyal az elején járunk annak, hogy a hangalapú alkalmazások, az AI-alkalmazások és az interfészek iránti kereslet 10-100-szorosára nő” – mondta.
McNamara, a kódoló, ha többet beszél chatbotokkal, jobb baráttá tette.
Régen rosszul válaszolt az üzenetekre. Most azonnal visszatér a barátaihoz.
Azt mondta: „Nagyon gyorsan reagálok, azt mondják: „Ki ez a srác?”
Megjelenési Dátum: 2026-01-29 11:03:00
Forráslink: www.latimes.com















