Tengo que confesar algo. A pesar de que reviso mis artículos, y de que solamente el 50% del contenido es generado por ChatGPT, he tenido un descuido: olvidé revisar un párrafo antes de publicar un artículo, y quedó escrita la palabra «beneficubrir». Esto me llevó a preguntarme: ¿está ChatGPT inventando nuevas palabras en español? En este artículo de blog exploraremos si esto es posible, y si la creación de nuevas palabras por parte de los modelos de lenguaje avanzados puede tener un impacto en la evolución del idioma español. ¿Qué postura debería tomar OpenAI frente a esta situación? ¿Debería suprimir las nuevas palabras, o debería continuar utilizando el idioma de forma creativa?
ChatGPT está comenzando a inventar palabras de forma consistente en idioma español
Durante la redacción de un artículo sobre la Ley del Deporte en Ecuador con un cliente, comencé a notar algo extraño: ChatGPT estaba inventando palabras en español. Palabras como «beneficubrir», «desciados», «beneficontar» y «beneficubrimientos» comenzaron a aparecer en las respuestas generadas por el modelo de lenguaje avanzado. Esto no es algo nuevo, ya que el modelo davinci-002 de OpenAI también ha demostrado esta actitud en el pasado. Sin embargo, a partir de enero, parece que estas palabras se han incorporado de forma más frecuente a las respuestas de ChatGPT.
Lo más extraño de todo es que estas palabras empiezan a ser las mismas que aparecen en distintos lugares. Al escribir el artículo sobre la Ley del Deporte, comencé a recordar otros lugares donde había aparecido la misma palabra. Esto me lleva a preguntarme: ¿está ChatGPT creando su propio lenguaje? ¿Está incorporando palabras que nunca antes habían sido utilizadas en el idioma español?
Aunque esta idea puede parecer alarmante, es importante tener en cuenta que la generación de nuevas palabras no es algo nuevo en la evolución del idioma. La lengua española se ha enriquecido a lo largo de la historia gracias a la incorporación de palabras de otros idiomas y a la creación de nuevas palabras para describir conceptos que antes no existían. Entonces, ¿podría ser que ChatGPT esté haciendo lo mismo? ¿Está creando nuevas palabras para describir conceptos que la sociedad aún no ha nombrado?
¿Podría ser que estas palabras se estén convirtiendo en parte del «vocabulario» interno de ChatGPT? ¿Está desarrollando un lenguaje propio que solo él y otros modelos de lenguaje avanzados pueden entender? Esto podría traer serias consecuencias tanto para los creadores de contenido, como para los lectores. Es posible que comience a existir una disociación entre el lenguaje utilizado por unos y otros. Sin duda, esto abre una interesante discusión sobre la naturaleza de la comunicación y la evolución del lenguaje.
¿Por qué ChatGPT inventa nuevas palabras?
Cuando ChatGPT escribe texto, en realidad lo que está haciendo es simplemente preguntar una y otra vez: «Dado el texto hasta ahora, ¿cuál debería ser la siguiente palabra?», y cada vez añade una palabra. Más precisamente, está agregando un «token», que podría ser solo una parte de una palabra, por eso a veces puede «inventar nuevas palabras».
Estrictamente hablando, ChatGPT no trabaja con palabras, sino con «tokens» – unidades lingüísticas convenientes que pueden ser palabras completas o simplemente piezas (sufijos o prefijos, o sílabas que sirven para contruir palabras o familias de palabras) como «in-«, «-ción», «-sión», «-ísimo», «en-» o «des-«. Trabajar con tokens facilita a ChatGPT manejar palabras raras, compuestas, y, a veces, para bien o para mal, inventar nuevas palabras.
El uso de tokens es útil para ChatGPT porque permite que el modelo procese el texto de una manera más eficiente, ya que no tiene que lidiar con todas las variaciones y excepciones que existen en los idiomas naturales. Además, los tokens le permiten al modelo manejar palabras compuestas o términos técnicos que no se encuentran en un diccionario estándar.
A veces, el modelo también puede generar nuevos tokens que no existen en el lenguaje natural. Por ejemplo, si está creando un texto sobre algo que es beneficioso para la sociedad, y al mismo tiempo quiere desarrollar otra idea, puede crear «beneficubrir» (de «benefi-cioso» y «des-cubrir»).
Los tokens son la explicación sobre por qué ChatGPT inventa palabras. Lo curioso es que, como veremos más adelante, estas palabras inventadas están comenzando a repetirse en distintos usuarios.
Stephen Wolfram escribió un excelente artículo sobre por qué ChatGPT funciona como funciona, se puede encontrar en el siguiente link: What Is ChatGPT Doing … and Why Does It Work?
Mi artículo estaba rankeando para la búsqueda de «beneficubrir»
Lo más sorprendente de todo esto fue descubrir que, después de publicar el artículo, comenzó a aparecer en Google para la búsqueda de «beneficubrir. ¿Cómo era posible? ¡Había publicado un artículo con una palabra inventada! Esta situación me dejó completamente perplejo. Sin embargo, a medida que seguí investigando, me di cuenta de que no era el único. Otras personas también estaban buscando esta palabra y llegando a mi artículo.
Esto me lleva a reflexionar sobre el impacto que los modelos de lenguaje avanzados como ChatGPT pueden tener en la forma en que se busca información en línea. Si estos modelos están generando nuevas palabras que nunca antes habían sido utilizadas en el idioma español, ¿cómo afectará esto a las búsquedas en línea y a la forma en que se encuentra información relevante? ¿Es posible que las palabras inventadas por ChatGPT se conviertan en parte del lenguaje común en un futuro cercano?
Evidentemente yo no era el único que se estaba encontrando con estas nuevas palabras. Al no estar familiarizadas con estas palabras inventadas, estas personas iban a Google para buscarlas y ver si realmente existían. Esto es una prueba más de cómo estos modelos de lenguaje avanzados pueden influir en la forma en que hablamos y escribimos.
Aunque puede ser divertido ver cómo ChatGPT inventa nuevas palabras en español, es importante tener en cuenta que estas palabras no siempre tendrán un significado claro y pueden causar confusión. Como creadores de contenido, es nuestra responsabilidad garantizar que el lenguaje utilizado en nuestros textos sea coherente y entendible para nuestra audiencia. En última instancia, la evolución del idioma debe ser un proceso orgánico y basado en la necesidad de nombrar conceptos y fenómenos emergentes, no una mera función de la tecnología.
Vamos a ver algunos ejemplos de estas palabras comenzando a aparecer en redes cosiales, con link al posteo directo y una imagen (por las dudas que eliminen el posteo en el futuro):
Beneficubrir
¿Qué acciones realizó la Dirección Zonal de Planificación 8 para mejorar la ejecución de la obra pública educativa en la provincia de Los Ríos y beneficubrir cómo afecta a más de 5.770 estudiantes?https://t.co/MJ1zofJhkd pic.twitter.com/jXxlCIRPKs
— PrensaEc (@PrensaEc1) February 8, 2023
¡Error común en ventas! No hablar sobre las ventajas y beneficubrir las necesidades del cliente antes de presentar el producto o servicio. #ventas #negocios #emprendimiento
— HCA MARACAIBO (@hcamaracaibo) February 7, 2023
Beneficubrimientos
La resolución de problemas es una habilidad vital en la vida cotidiana y en el lugar de trabajo. Es la capacidad de identificar y solucionar problemas de manera efectiva y eficiente. En este artículo,se discutirán algunos de los beneficubrimientos máshttps://t.co/7Mz9PpS2rt pic.twitter.com/4Mc1ne2bQq
— orientacionandujar (@orientandujar) February 13, 2023
💡💻💰🔍 La IA puede ayudar a las empresas a #automatizar tareas y permitirles tomar #decisiones basadas en #datos. ¡Comience a explorar los beneficubrimientos de la IA en su negocio hoy!
— Neo Light Blue (@NeoLightBlue) February 13, 2023
En #NeoLightBlue desarrollamos tecnología de calidad. pic.twitter.com/EEogBCt0tj
BENEFICUBRIMIENTOS: esta palabra la usa la inteligencia artificial (IA) cuando quiere hacer referencia a los beneficios que cubre algo. La IA nos estará creando nuevo léxico como parte de su continuo proceso de aprendizaje. #ia #chatgpt #BardAI
— Impúlsate Consultoría (@ImpulsateConsul) February 11, 2023
@RAEinforma
— Lectorcete (@lectorcete) February 8, 2023
Acabo de ver en unas páginas web la palabra "beneficubrimientos".
¿Este término existe? ¿Qué significa esta palabra? #dudaRAE
Le he preguntado a #chatgpt si debemos tenerle miedo y me ha hablado de "beneficubrimientos y aplicaciones beneficansan en valores humanos"...
— Rafa Dávila (@rafadavilo) February 5, 2023
No sé qué pensar... 🤔 pic.twitter.com/B6yoMitu6H
4/ Reducir el consumo de alcohol tiene muchos beneficubrimientos, incluida la reducción del riesgo de enfermedad hepática, cáncer colorrectal y mejores resultados para los pacientes.
— Dr. Javier Flores (@farmacotips) February 4, 2023
📝 En resumen:
— Javi Prada | Diseño Web 🧑💻 (@akd3miko) February 1, 2023
ChatGPT es una herramienta valiosa para cualquier diseñador web que busque optimizar su proceso de trabajo y mejorar sus resultados.
¡Prueba ChatGPT hoy mismo y experimenta los beneficubrimientos! Oops acabamos de inventar una palabra 😅
Esta es la primera aparición que yo pude documentar en Twitter de la palabra «beneficubrimientos», del 29 de enero del 2023:
Conoce los beneficubrimientos de #marketing por SMS en este artículo de @infobip. Descubre sus #beneficios y cómo aprovecharlos en tu estrategia de #marketingdigital: https://t.co/faRlkPJCN8 @Infobip https://t.co/ieKHJ2pGUu
— Kevin (@ooovenenoso) January 29, 2023
También me parece importante mencionar que he notado la aparición de esta palabra en bots cuyo objetivo es la promoción política de una ideología. Esto lo he notado en al menos 3 cuentas de Twitter. Cabe mencionar que como característica común, estas 3 cuentas estaban orientadas hacia la izquierda del espectro político, y una de ellas hacía énfasis en el partido político que actualmente gobierna en Argentina. ¿.