¿Tienen GPT-3.5 y GPT-4 un estilo de escritura diferente del estilo humano? Un estudio exploratorio para el español

Autores/as

  • Lara Alonso Simón Universidad Complutense de Madrid
  • Ana María Fernández-Pampillón Cesteros Universidad Complutense de Madrid
  • Marianela Fernández Trinidad Universidad Complutense de Madrid
  • Manuel Márquez Cruz Universidad Complutense de Madrid

DOI:

https://doi.org/10.58859/rael.v23i1.666

Palabras clave:

estilo de escritura, grandes modelos de lenguaje, GPT-3.5, GPT-4, lingüística de corpus

Resumen

La cuestión que se aborda en este trabajo de investigación es la comprobación, mediante técnicas estadísticas, de que los modelos generativos de lenguaje GPT-3.5 (versión gratuita) y GPT-4 (versión de pago) de ChatGPT tienen un estilo de escritura distinto al de los humanos, y que pueden diferenciarse, al menos, por tres tipos de rasgos: léxicos, signos de puntuación y estructura sintáctica de las oraciones. Determinar si los grandes modelos de lenguaje tienen un estilo propio es relevante de cara a poder detectar la autoría automática de los textos. En trabajos anteriores se construyó un corpus comparable de textos humanos y automáticos en español y, mediante un estudio cualitativo, se localizó un conjunto de rasgos lingüísticos y estilísticos propios de cada autor. En este trabajo se ha podido comprobar cuantitativamente que 17 variables lingüísticas presentan diferencias estadísticamente significativas entre autores humanos y los modelos GPT-3.5 y GPT-4.

Descargas

Los datos de descargas todavía no están disponibles.

Estadísticas globales ℹ️

Totales acumulados desde su publicación
176
Visualizaciones
108
Descargas
284
Total

Citas

Alonso Simón, L., Gonzalo Gimeno, J. A., Fernández-Pampillón Cesteros, A. M.ª, Fernández Trinidad, M. y Escandell Vidal, M.ª V. (2023). Using Linguistic Knowledge for Automated Text Identification. En M. Montes y Gómez et al. (Eds.), Proceedings of the Iberian Languages Evaluation Forum (IberLEF 2023), co-located with the Conference of the Spanish Society for Natural Language Processing (SEPLN 2023). Jaén, España, 26 de septiembre. https://ceur-ws.org/Vol-3496/autextification-paper17.pdf

Berber Sardinha, T. (2024). AI-generated vs human-authored texts: A multidimensional comparison. Applied Corpus Linguistics, 4(1). https://doi.org/10.1016/j.acorp.2023.100083 DOI: https://doi.org/10.1016/j.acorp.2023.100083

Cañete, J., Chaperon, G., Fuentes, R., Ho, J-H., Kang, H. y Pérez, J. (2020). Spanish pretrained BERT model and evaluation data. arXiv:2308.02976v1. https://doi.org/10.48550/arXiv.2308.02976

Cardenuto, J. P., Yang, J., Padilha, R., Wan, R., Moreira, D., Li, H., Wang, S., Andaló, F., Marcel, S. y Rocha, A. (2023). The Age of Synthetic Realities: Challenges and Opportunities. APSIPA Transactions on Signal and Information Processing, 12(1), 1–62. https://doi.org/10.1561/116.00000138 DOI: https://doi.org/10.1561/116.00000138

Casal, J. E. y Kessler, M. (2023). Can linguists distinguish between ChatGPT/AI and human writing?: A study of research ethics and academic publishing. Research Methods in Applied Linguistics, 2(3). https://doi.org/10.1016/j.rmal.2023.100068 DOI: https://doi.org/10.1016/j.rmal.2023.100068

Corizzo, R. y Leal-Arenas, S. (2023). A Deep Fusion Model for Human vs. Machine-Generated Essay Classification. En D. Wang y T. Toyoizumi (Eds.), Proceedings of the International Joint Conference on Neural Networks (IJCNN). Gold Coast, Australia, 18-23 de junio. https://doi.org/10.1109/IJCNN54540.2023.10191322 DOI: https://doi.org/10.1109/IJCNN54540.2023.10191322

Crothers, E. N., Japkowicz, N. y Viktor, H. L. (2023). Machine-Generated Text: A Comprehensive Survey of Threat Models and Detection Methods. arXiv:2210.07321, Oct. 2023. https://doi.org/10.1109/ACCESS.2023.3294090 DOI: https://doi.org/10.1109/ACCESS.2023.3294090

Desaire, H., Chua, A. E., Isom, M., Jarosova, R. y Hua, D. (2023). Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools. Cell Reports Physical Science, 4(6). https://doi.org/10.1016/j.xcrp.2023.101426 DOI: https://doi.org/10.1016/j.xcrp.2023.101426

Fernández Vítores, D. (2023). El español: una lengua viva. Informe 2023. En C. Pastor Villalba (dir.), Instituto Cervantes (coord.), El español en el mundo. Anuario del Instituto Cervantes 2023 (pp. 19-142). Madrid: Instituto Cervantes. DOI: https://doi.org/10.18259/978-612-4443-53-4

Fröhling, L. y Zubiaga, A. (2021). Feature-based detection of automated language models: tackling GPT-2, GPT-3 and Grover. PeerJ Computer Science, 7, 1–23. https://doi.org/10.7717/PEERJ-CS.443 DOI: https://doi.org/10.7717/peerj-cs.443

Guo, B., Zhang, X., Wang, Z., Jiang, M., Nie, J., Ding, Y., Yue, J. y Wu, Y. (2023). How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation y Detection. arXiv:2301.07597v1. https://doi.org/10.48550/arXiv.2301.07597

Hadi, M. U., Al-Tashi, O., Qureshi, R., Shah, A., Muneer, A., Irfan, M., Zafar, A., Shaikh, M., Akhtar, N., Wu, J. y Mirjalili, S. (2023). Large Language Models: A Comprehensive Survey of its Applications, Challenges, Limitations, and Future Prospects. TechRxiv. https://doi.org/10.36227/techrxiv.23589741.v4 DOI: https://doi.org/10.36227/techrxiv.23589741.v2

He, Z., Mao, R. y Liu, Y. (2024). Predictive model on detecting ChatGPT responses against human responses. Applied and Computational Engineering, 44(1), 18–25. https://doi.org/10.54254/2755-2721/44/20230078 DOI: https://doi.org/10.54254/2755-2721/44/20230078

Jawahar, G., Abdul-Mageed, M. y Lakshmanan, L. V. S. (2020). Automatic Detection of Machine Generated Text: A Critical Survey. En D. Scott, N. Bel, y C. Zong (Eds.), Proceedings of the 28th International Conference on Computational Linguistics (pp. 2296–2309). Barcelona: International Committee on Computational Linguistics. arXiv:2011.01314. https://doi.org/10.48550/arXiv.2011.01314 DOI: https://doi.org/10.18653/v1/2020.coling-main.208

Jurafsky, D. y Martin, J. H. (2024). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (3rd ed. draft). Stanford University. Recuperado de https://web.stanford.edu/~jurafsky/slp3/

[...]

Descargas

Publicado

2025-01-31

Cómo citar

Alonso Simón, L., Fernández-Pampillón Cesteros, A. M., Fernández Trinidad, M., & Márquez Cruz, M. (2025). ¿Tienen GPT-3.5 y GPT-4 un estilo de escritura diferente del estilo humano? Un estudio exploratorio para el español. Revista Electrónica De Lingüística Aplicada, 23(1). https://doi.org/10.58859/rael.v23i1.666

Número

Sección

Artículos Nuevos

Artículos similares

<< < 12 13 14 15 16 17 18 19 20 21 > >> 

También puede Iniciar una búsqueda de similitud avanzada para este artículo.