
Uniformité de la densité informationnelle : le cas du redoublement du sujet
- Author
- Yiming Liang (UGent) , Pascal Amsili and Heather Burnett
- Organization
- Abstract
- Nous présentons les résultats d'une expérience visant à savoir si la densité d'information (ou de surprise) affecte le redoublement du sujet dans des conversations spontanées. En utilisant la version française de GPT, nous estimons la surprise lexicale du sujet NP étant donné un contexte précédent et vérifions si la surprise du sujet affecte son redoublement. L'analyse de régression à effet mixte montre que, en plus des facteurs qui ont été montrés comme affectant le redoublement du sujet dans la littérature, la prévisibilité du sujet nominal est un prédicteur important du non-redoublement. Les sujets nominaux moins prédictibles tendent à être redoublés par rapport à ceux qui sont plus prédictibles. Notre travail confirme l'intérêt de l'hypothèse de l'Uniformité de la densité informationnelle (UID) pour le français et illustre l'opérationalisation de la densité informationnelle à l'aide de grands modèles neuronaux de langage.
- We present the results of an experiment investigating whether information density affects subject doubling in conversations in French. Using the French version of GPT, we estimate the lexical surprisal of the subject NP subject given a certain left context and verify whether the surprisal of the subject affects its doubling. A Mixed effect regression analysis shows that, in addition to factors that have been shown to affect subject doubling in the literature, the predictability of the NP is an important predictor of subject doubling. Less predictable NPs tend to be more often doubled with a clitic than more predictable ones. Our work thus provides additional support to the Uniform Information Density (UID) hypothesis in French and points to a way to the operationalization of information density with the help of large neural language models.
- Keywords
- Uniform Information Density, subject doubling, surprisal, spoken French, Generative, Pre-trained Transformer (GPT), uniformité de la densité informationnelle, redoublement du sujet, surprise, français, oral, modèle Tranformer Génératif Pré-entraîné (GPT)
Downloads
-
2023.jeptalnrecital-long.13.pdf
- full text (Published version)
- |
- open access
- |
- |
- 891.82 KB
Citation
Please use this url to cite or link to this publication: http://hdl.handle.net/1854/LU-01J3ZJJD60VJ73PZK8D6F6N6RK
- MLA
- Liang, Yiming, et al. “Uniformité de La Densité Informationnelle : Le Cas Du Redoublement Du Sujet.” Actes de CORIA-TALN 2023, Actes de La 30e Conférence Sur Le Traitement Automatique Des Langues Naturelles (TALN), Volume 1 : Travaux de Recherche Originaux - Articles Longs, edited by Christophe Servan and Anne Vilnat, ATALA, 2023, pp. 164–76.
- APA
- Liang, Y., Amsili, P., & Burnett, H. (2023). Uniformité de la densité informationnelle : le cas du redoublement du sujet. In C. Servan & A. Vilnat (Eds.), Actes de CORIA-TALN 2023, actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux - articles longs (pp. 164–176). Paris, France: ATALA.
- Chicago author-date
- Liang, Yiming, Pascal Amsili, and Heather Burnett. 2023. “Uniformité de La Densité Informationnelle : Le Cas Du Redoublement Du Sujet.” In Actes de CORIA-TALN 2023, Actes de La 30e Conférence Sur Le Traitement Automatique Des Langues Naturelles (TALN), Volume 1 : Travaux de Recherche Originaux - Articles Longs, edited by Christophe Servan and Anne Vilnat, 164–76. Paris, France: ATALA.
- Chicago author-date (all authors)
- Liang, Yiming, Pascal Amsili, and Heather Burnett. 2023. “Uniformité de La Densité Informationnelle : Le Cas Du Redoublement Du Sujet.” In Actes de CORIA-TALN 2023, Actes de La 30e Conférence Sur Le Traitement Automatique Des Langues Naturelles (TALN), Volume 1 : Travaux de Recherche Originaux - Articles Longs, ed by. Christophe Servan and Anne Vilnat, 164–176. Paris, France: ATALA.
- Vancouver
- 1.Liang Y, Amsili P, Burnett H. Uniformité de la densité informationnelle : le cas du redoublement du sujet. In: Servan C, Vilnat A, editors. Actes de CORIA-TALN 2023, actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux - articles longs. Paris, France: ATALA; 2023. p. 164–76.
- IEEE
- [1]Y. Liang, P. Amsili, and H. Burnett, “Uniformité de la densité informationnelle : le cas du redoublement du sujet,” in Actes de CORIA-TALN 2023, actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux - articles longs, Paris, France, 2023, pp. 164–176.
@inproceedings{01J3ZJJD60VJ73PZK8D6F6N6RK, abstract = {{Nous présentons les résultats d'une expérience visant à savoir si la densité d'information (ou de surprise) affecte le redoublement du sujet dans des conversations spontanées. En utilisant la version française de GPT, nous estimons la surprise lexicale du sujet NP étant donné un contexte précédent et vérifions si la surprise du sujet affecte son redoublement. L'analyse de régression à effet mixte montre que, en plus des facteurs qui ont été montrés comme affectant le redoublement du sujet dans la littérature, la prévisibilité du sujet nominal est un prédicteur important du non-redoublement. Les sujets nominaux moins prédictibles tendent à être redoublés par rapport à ceux qui sont plus prédictibles. Notre travail confirme l'intérêt de l'hypothèse de l'Uniformité de la densité informationnelle (UID) pour le français et illustre l'opérationalisation de la densité informationnelle à l'aide de grands modèles neuronaux de langage.}}, author = {{Liang, Yiming and Amsili, Pascal and Burnett, Heather}}, booktitle = {{Actes de CORIA-TALN 2023, actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux - articles longs}}, editor = {{Servan, Christophe and Vilnat, Anne}}, keywords = {{Uniform Information Density,subject doubling,surprisal,spoken French,Generative,Pre-trained Transformer (GPT),uniformité de la densité informationnelle,redoublement du sujet,surprise,français,oral,modèle Tranformer Génératif Pré-entraîné (GPT)}}, language = {{fre}}, location = {{Paris, France}}, pages = {{164--176}}, publisher = {{ATALA}}, title = {{Uniformité de la densité informationnelle : le cas du redoublement du sujet}}, url = {{https://aclanthology.org/2023.jeptalnrecital-long.13/}}, year = {{2023}}, }