Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей

 
Код статьиS013161170017239-1-1
DOI10.31857/S013161170017239-1
Тип публикации Статья
Статус публикации Опубликовано
Авторы
Аффилиация: Институт русского языка им. В. В. Виноградова РАН
Адрес: Российская Федерация, Москва
Аффилиация: Новосибирский государственный университет
Адрес: Российская Федерация, Новосибирск
Название журналаРусская речь
ВыпускНомер 5
Страницы55-68
Аннотация

Необходимость оценить сложность текста для читателя может возникнуть в разных ситуациях: составление текстов договоров и законов, создание инструкций к приборам, написание учебников родного или иностранного языка, подбор литературы для внеклассного чтения. Особенно интересна оценка сложности учебных текстов для детей, поскольку к таким текстам предъявляется сразу несколько требований, отчасти противоречащих друг другу. Дети должны хорошо понимать эти тексты, они должны быть актуальны и интересны и одновременно учить читателей как новым концепциям, так и новым словам и конструкциям. Сейчас возрастная маркировка текстов для детей проводится экспертами вручную, что делает процесс долгим и трудоемким, а результат субъективным. В статье предлагается метод автоматической классификации текстов по сложности с использованием нейросетевой модели. Этот метод предполагается использовать для создания корпуса текстов детской литературы с разметкой по возрасту (в рамках НКРЯ). Качество предсказаний нашей модели достигло 0,92, она достаточно хорошо учитывает разнообразие лексики и набор тем. Появление автоматического механизма, с приемлемой точностью оценивающего степень сложности текста, позволит в короткие сроки создать представительный корпус текстов, написанных для детей, с возможностью подбора в нем текстов, заведомо понятных детям заданного возраста. Такой корпус будет востребован и учителями, и родителями, и переводчиками художественной литературы, и лингвистами, и всеми, кому важна возможность подбора понятных детям художественных текстов.

Ключевые словакорпусная лингвистика, детская литература, читабельность, сложность текста, машинное обучение, нейронные сети
Источник финансированияРабота выполнена при финансовой поддержке РФФИ, проект 19-29-14224.
Получено12.12.2021
Дата публикации12.12.2021
Кол-во символов21764
Цитировать  
100 руб.
При оформлении подписки на статью или выпуск пользователь получает возможность скачать PDF, оценить публикацию и связаться с автором. Для оформления подписки требуется авторизация.

Оператором распространения коммерческих препринтов является ООО «Интеграция: ОН»

Всего подписок: 0, всего просмотров: 659

Оценка читателей: голосов 0

1. Иомдин Б. Л., Морозов Д. А. Коварные слова и где они обитают // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 19 (26) (доп. том), 2020. С. 1011–1024.

2. Морозов Д. А., Иомдин Б. Л. Критерии семантической сложности слова // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2019». Вып. 18 (доп. том), 2019. С. 119–131.

3. Фейгина Т. Б. Критерии выводимости значения неизвестного слова из контекста. Курсовая работа (рукопись), 2021.

4. Breiman L. Random forests // Machine Learning, 45, 2001, pp.5–32.

5. Glazkova A., Egorov Yu., Glazkov M. A. Comparative study of feature types for age-based text classification // Analysis of images, social networks and texts. Springer International Publishing, 2021, pp.120–134.

6. Isaeva U., Sorokin A. Investigating the robustness of reading difficulty models for Russian educational texts // Recent trends in analysis of images, social networks and texts, vol. 1357, 2020, pp. 65–77.

7. Ivanov V., Solnyshkina M., Solovyev V. Efficiency of text readability features in Russian academic texts // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог», Вып. 17 (24), 2018. С. 267–283.

8. Jones K. S. A statistical interpretation of term specificity and its application in retrieval // Journal of documentation. MCB University: MCB University Press, 2004. Vol. 60, no. 5, pp. 493–502.

9. Kuratov Y., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for Russian language, arXiv preprint arXiv:1905.07213. 2019.

10. Melamed, I. Dan. Measuring semantic entropy // Proceedings of the SIGLEX Workshop on tagging text with lexical semantics, 2002, pp. 41–46.

11. Mikk Jaan, Uibo Heli, Elts Jaanus. Word length as an indicator of semantic complexity // Text as a linguistic paradigm: levels, constituents, constructs. Quantitative linguistics, 2001, pp. 187–195.

12. Powers D. M. W. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness & correlation // Journal of machine learning technologies, 2011, pp. 37–63.

13. Raukko J. Polysemy as complexity? // A man of measure.SKY journal of linguistics. Finland: The Linguistic Association of Finland, 2006, pp. 357–361.

14. Zhang W., Itoh K., Tanida, J., & Ichioka, Y. Parallel distributed processing model with local space-invariant interconnections and its optical architecture // Applied optics, 29(32), 1990, pp.4790–4797.

Система Orphus

Загрузка...
Вверх