Inteligencia Artificial (IA) para la Escritura Académica

Nuestras Preguntas

AI for Science

🔹¿Cómo podemos ayudar a los científicos a redactar y comunicar mejor sus investigaciones? ¿Cuál es la diferencia entre los artículos bien escritos y mal escritos?

🔹 ¿Qué hace que un artículo sea fácil de leer y que esté escrito de manera lógica? ¿Cuáles son los patrones lingüísticos básicos de los artículos bien escritos?

🔹 ¿Cómo podemos aplicar la automatización para ayudar a las editoriales académicas a hacer el proceso de revisión más rápido y eficiente?

🔹 ¿Cómo podemos hacer más objetivo el proceso de revisión de artículos académicos? ¿Se puede evaluar la calidad de redacción de los artículos, basándose en sus factores cuantificables?

Nuestro I+D+i en IA para la Ciencia

Para resolver estas preguntas investigativas, nosotros aplicamos las técnicas más modernas de aprendizaje automatizado (machine learning), investigación lingüística aplicada y conocimiento experto, a la redacción científica, para desarrollar nuevos modelos, funciones y algoritmos. En pocas palabras, estamos aplicando la IA a la ciencia.

Buscamos ayudar exhaustivamente a los investigadores durante todo el proceso de redacción. Esta meta será alcanzada gracias a nuestra investigación aplicada, desarrollo e innovación (I+D+i), fusionando los avances tecnológicos más novedosos  con nuestras pautas de redacción establecidas. Nuestro I+D+i es manifestado en WriteWise, un software único que modernizará la redacción científica, al reducir el tiempo y el esfuerzo requerido por los investigadores al escribir, y por las revistas y editoriales académicas al revisar los manuscritos que reciben.

Para saber más acerca del equipo detrás de nuestras investigaciones de IA para la Ciencia, visita Nuestro Equipo.

Líneas de Investigación


Aprendizaje Automatizado (Machine Learning)

para Procesamiento del Lenguaje Natural 
Aplicado a Redacción Científica

Combinamos aprendizaje automatizado y la lingüística computacional dentro del marco del procesamiento del lenguaje natural, también aplicado a la modelización y revisión del proceso de escritura y los textos científicos. Esta línea de investigación aplica las siguientes metodologías:

1. Enfoques novedosos para representar información textual de artículos científicos:

  • Incrustación de palabras combinadas con modelos de aprendizaje profundo/automático para tareas de procesamiento del lenguaje natural.
  • Representaciones gráficas

2. Nuevas perspectivas computacionales para el análisis de artículos científicos, con enfoque investigativo específico en:

  • Segmentación del discurso
  • Análisis automático de la puntuación
  • Minería de textos basada en reglas
  • Modelado de temas
  • Clasificación de legibilidad y coherencia

Discurso Retórico
y Léxico-Gramática

Aplicado a Artículos Científicos

Utilizamos marcos discursivos funcionales y aplicados, combinados con análisis del corpus, lingüística computacional, y enfoques del procesamiento del lenguaje natural, para determinar empíricamente las normas y requerimientos discursivos y lingüísticos de los textos científicos y académicos. Esta línea de investigación busca identificar y comprender:

1. Los propósitos comunicativos y características léxico-gramaticales que constituyen los textos escritos en las diferentes disciplinas científicas.

2. Los fundamentos textuales y discursivos de los textos científicos y académicos.

Publicaciones

Javier Vera, Hector Allende-Cid, René Venegas, Sebastián Rodríguez, Wenceslao Palma, Sofía Zamora, Fernando Lillo, Humberto González, Ashley Van Cott, and Eduardo N. Fuentes. 2018. Molecular Biology of the Cell, 29:26. 

Academic writing is one of the most valuable skills a scientist can develop. A primary challenge for graduate students is to coherently and concisely organize and present ideas within a manuscript. Writing a quality research manuscript requires transmitting the most relevant information through precise sentences that fulfill diverse communicational roles, ultimately resulting in a coherent, understandable text connected by cohesive mechanisms (e.g. lexical relationships between pairs of terms). Despite technological advances, the execution and teaching of the writing process have not similarly advanced. Therefore, a top priority for graduate programs is to implement new methodologies and technologies that aid students in communicating research advances. Through our investigation, we developed a novel, unsupervised machine-learning model applied to cell biology and biomedical texts that guides students in writing better organized and more structured texts.

Javier Vera, Wenceslao Palma, Hector Allende, Sebastian Rodriguez, Juan Pavez, and Eduardo Fuentes. 2019. NetSci-X: International Conference on Network Science.

In this work was shown how k − shell decomposition helps to understand the dynamics of the formation of the decentralized and collaborative language community defined by the electronic repository arXiv. Our results suggest that there are several global patterns that emerges from the microscopic activity of users sharing content. The growth of the collection of texts (and therefore of the associated networks) was (almost) completely governed by the outmost k −shells, which exponentially increased its size over time. Nevertheless, the size of the most dense set of nodes (Skmax ) tends to linearly increase its size. This points in the direction of the existence of an exponential accumulation of words that forces changes in the main discipline (computer science, in our case), represented by Skmax . These observations were confirmed by the behavior of the (normalized) critical index k∗ = arg maxk |Sk |, since it exponentially shifts to the outmost network layers. Further study should describe the relationship between the index k and the number of connected components of the k − shell Sk . Moreover, it is plausible to propose that the decentralized features of arXiv appear precisely at those external layers.

Brayn Díaz, Juan Pavez, Sebastian Rodríguez, Wenceslao Palma, Hector Allende-Cid, Rene Venegas, and Eduardo N. Fuentes. 2019. 5th Workshop on Automatic Text and Corpus Processing.

We demonstrated the effectiveness of both the USE and BioSentVec as methods for helping users identify and improve semantic similarity between sentences in bio-medical texts. The shared tendencies between the models support sequential similarity as a metric to evaluate a text’s cohesion. With both methods outliers can be easily spotted, and then specific modifications in the sentences can be carried out depending on the type of outlier.

Eduardo N. Fuentes, Hector Allende-Cid, Sebastián Rodríguez, Rene Venegas, Juan Pavez, Wenceslao Palma, Ismael Figueroa, Sofia Zamora, Brayn Diaz, and Ashley VanCott.  2020. Congreso Internacional de Lingüística Computacional y de Corpus. 

Certificate CILCC Dr. Fuentes - WriteWise
Certificate CILCC A. VanCott - WriteWise

WriteWise represents the first commercially available advanced platform that provides user's help and feedback to improve scientific papers writing. This is thanks to the development of and advance textual data representation at different linguistic levels (e.g. words, sentences) through using cutting-edge machine-learning models and applied linguistics research.

Juan Pavez, Sebastián Rodríguez, and Eduardo N. Fuentes. 2020. Congreso Internacional de Lingüística Computacional y de Corpus. 

Certificate CILCC 2020 - Sentence Encoders in Biomedical Text

One of the main challenges for researchers when writing scientific papers is to coherently structure and organize the content, specifically at rhetorical-discursive level. Modeling these types of text is difficult and new computation approaches are necessary. Currently, language model pre-training that learned word representations from a large amount of unannotated text has been shown to be effective for improving many natural language processing (NLP) tasks. Recent models have focused on learning context dependent word representations, such as: 1) Embeddings from Language Models (ELMo) (Peters et al., 2018); 2) Generative Pretrained Transformer (GPT) (Radford et al., 2018); 3) Bidirectional Encoder Representations from Transformers (BERT) (Devlin et al., 2019). Specifically, BERT which consists of a transformer architecture (Vaswani et al., 2017) that produces contextualized word representations has shown state-of-the-art performance on several NLP benchmarks. Despite these advantages, BERT has been trained and tested mainly on datasets containing general domain texts (e.g. Wikipedia). Therefore, its performance in other genre types of text, such as biomedical scientific papers, is not optimal. Recently, BioBERT- the first domain-specific BERT based model pretrained on biomedical corpora (PubMed) – has shown to outperform previous models on biomedical NLP tasks (Lee et al., 2019). However, little research has been performed at rhetorical-discursive level using these state-of-the-art language models and applied them to the challenging task of identification of rhetorical-discursive steps (i.e. functional linguistic unit that fulfills a communicative purpose in a sentence). Therefore, the aim of this study was to test the accuracy of BioBERT on rhetorical-discursive steps classification in biomedical scientific papers.