Методы анализа данных в задаче разграничения фольклорных и авторских текстов

 
Код статьиS0373658X0008823-4-1
DOI10.31857/S0373658X0008823-4
Тип публикации Статья
Статус публикации Опубликовано
Авторы
Аффилиация: Петрозаводский государственный университет
Адрес: Российская Федерация, Петрозаводск
Аффилиация: Петрозаводский государственный университет
Адрес: Российская Федерация, Петрозаводск
Аффилиация: Петрозаводский государственный университет
Адрес: Российская Федерация, Петрозаводск
Название журналаВопросы языкознания
ВыпускНомер 2
Страницы61-74
Аннотация

Основной проблемой данного исследования является разграничение фольклорных текстов и текстов, стилизованных под фольклор, при помощи математических методов и компьютерных технологий. Были рассмотрены пять групп текстов: фольклорные песни Заонежья XIX — начала XX века, лужские песни, представляющие собой репертуар Городенского народного хора, стилизованные под фольклор стихотворения Н. А. Клюева, А. К. Толстого и С. А. Есенина. Для сравнения текстов на основе их теоретико-графовых моделей были использованы восемь признаков, с помощью которых в программе R была проведена серия экспериментов с применением пяти методов интеллектуального анализа данных. Все методы показали достаточно высокую среднюю точность распознавания (более 80 %).

Ключевые словакомпьютерная лингвистика, нейронные сети, русская поэзия, фольклор, художественная литература
Получено02.12.2018
Дата публикации25.06.2020
Кол-во символов26537
Цитировать  
100 руб.
При оформлении подписки на статью или выпуск пользователь получает возможность скачать PDF, оценить публикацию и связаться с автором. Для оформления подписки требуется авторизация.

Оператором распространения коммерческих препринтов является ООО «Интеграция: ОН»

Всего подписок: 0, всего просмотров: 918

Оценка читателей: голосов 0

1. Алексеева 2015 — Алексеева Л. В. Проблемы атрибуции в исследованиях о Ф. М. Достоевском (обзор предложенных решений). Неизвестный Достоевский, 2015, 4: 3–10.

2. Алексеевский 2010 — Алексеевский М. Д. Интернет в фольклоре или фольклор в Интернете? (современная фольклористика и виртуальная реальность). От Конгресса к Конгрессу. Навстречу Второму Всероссийскому конгрессу фольклористов: Сб. материалов. М.: ГРЦРФ, 2010, 151–166.

3. Андреев 2003 — Андреев В. С. Классификация стихотворных текстов методом дискриминантного анализа. Математическая морфология: электронный математический и медико-биологический журнал, 2003, 5(1): 58–70.

4. Барахнин и др. 2017 — Барахнин В. Б., Кожемякина О. Ю., Пастушков И. С., Рычкова Е. В. Автоматизированная классификация русских поэтических текстов по жанрам и стилям. Вестник НГУ. Сер.: Лингвистика и межкультурная коммуникация, 2017, 3: 13–23.

5. Батура 2012 — Батура Т. В. Формальные методы определения авторства текстов. Вестник НГУ. Сер.: Информационные технологии, 2012, 10(4): 81–94.

6. Бахтин 1995 — Бахтин М. М. Формы времени и хронотопа в романе. Очерки по исторической поэтике. Вопросы литературы и эстетики. М.: Художественная литература, 1995, 234–405.

7. Ермолаева 2009 — Ермолаева Ю. Е. Классификация стихотворных текстов методом дискриминантного анализа. Вестник Тамбовского университета, 2009, 7(75): 292–296.

8. Завгородняя 2010 — Завгородняя Г. Ю. Фольклорная стилизация в романе П. И. Мельникова-Печерского «В лесах». Русская речь, 2010, 5: 111–114.

9. Захаров и др. 2000 — Захаров В. Н., Рогов А. А., Сидоров Ю. В. Поиск грамматического инварианта Ф. М. Достоевского методами статистического анализа. Труды Петрозаводского государственного университета: Сер. «Прикладная математика и информатика», 2000, 9: 67–80.

10. Калашникова 1999 — Калашникова Р. Б. Бесёды и бесёдные песни Заонежья второй половины XIX века. Петрозаводск: Изд-во ПетрГУ, 1999.

11. Мануковская 2015 — Мануковская Т. В. Фольклорная стилизация в солдатских песнях Николая Клюева. Вестник ВГУ. Сер.: Филология. Журналистика, 2015, 1: 35–40.

12. Мироненко 2012 — Мироненко А. Н. Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей. Дис. … канд. техн. наук. Омск: Омский гос. ун-т им. Ф. М. Достоевского, 2012.

13. Москин 2013 — Москин Н. Д. Теоретико-графовые модели фольклорных текстов и методы их анализа. Петрозаводск: Изд-во ПетрГУ, 2013.

14. Мущенко и др. 1978 — Мущенко Е. Г., Скобелев В. П., Кройчик Л. Е. Поэтика сказа. Воронеж: Издво Воронежского ун-та, 1978.

15. Орлов, Осминин 2010 — Орлов Ю. Н., Осминин К. П. Определение жанра и автора литературного произведения статистическими методами. Прикладная информатика, 2010, 2: 95–108.

16. Радченко 2011 — Радченко Д. А. Сетевой фольклор: перспективы исследования. Комплексные исследования традиционной культуры в постсоветский период. Вып. 14. М.: ГРЦРФ, 2011, 417–427.

17. Рогов и др. 2014 — Рогов А. А., Седов А. В., Сидоров Ю. В., Суровцова Т. Г. Математические методы атрибуции текстов. Петрозаводск: Изд-во ПетрГУ, 2014.

18. Романов 2010 — Романов А. С. Методика и программный комплекс для идентификации автора неизвестного текста. Дис. … канд. техн. наук. Томск: ТГУ, 2010.

19. Хатямова 2006 — Хатямова М. А. Фольклорная стилизация в малой прозе Е. И. Замятина. Вестник ТГПУ, 2006, 8: 68–75.

20. Шитиков, Мастицкий 2017 — Шитиков В. К., Мастицкий С. Э. Классификация, регрессия и другие алгоритмы Data Mining с использованием R. Тольятти; Лондон [б. и.], 2017.

21. Ястребова 2011 — Ястребова Н. Г. Фольклорная стилизация в повести Ф. Н. Глинки «Лука да Марья». Русская речь, 2011, 3: 110–117.

22. dos Santos, Gatti 2014 — dos Santos C. N., Gatti M. Deep convolutional neural networks for sentiment analysis of short texts. Proc. of COLING 2014, the 25th International Conf. on Computational Linguistics, Dublin, Ireland, August 23-29, 2014. Dublin, 2014, 69–78.

23. Engels et al. 2007 — Engels S., Lakshmanan V., Craig M. Plagiarism detection using feature-based neural networks. Proc. of the 38th SIGCSE Technical Symposium on Computer Science Education, 2007, 39(1): 34–38.

24. Lai et al. 2015 — Lai S., Xu L., Liu K., Zhao J. Recurrent convolutional neural networks for text classification. Proc. of the 29th AAAI Conf. on Artificial Intelligence, 2015: 2267–2273.

25. Sboev et al. 2018 — Sboev A., Moloshnikov I., Gudovskikh D., Selivanov A., Rybka R., Litvinova T. Deep learning neural nets versus traditional machine learning in gender identification of authors of RusProfiling texts. Procedia Computer Science, 2018, 123: 424–431.

26. Sebastiani 2002 — Sebastiani F. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1): 1–47.

27. Socher et al. 2013 — Socher R., Perelygin A., Wu J. Y., Chuang J., Manning C. D., Ng A. Y., Potts C. Recursive deep models for semantic compositionality over a sentiment treebank. Proc. of the 2013 Conf. on Empirical Methods in Natural Language Processing. Seattle; Washington, 2013, 1631–1642.

28. Stamatatos 2009 — Stamatatos E. A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 2009, 60(3): 538–556.

29. Subroto, Selamat 2014 — Subroto I., Selamat A. Plagiarism detection through Internet using hybrid artificial neural network and support vectors machine. TELKOMNIKA, 2014, 12(1): 209–218.

30. Wu et al. 2016 — Wu Y., Schuster M., Chen Z., Le Q. V., Norouzi M., Macherey W. et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. URL: https:// arxiv.org/abs/1609.08144 (arXiv preprint).

31. Yang, Liu 1999 — Yang Y. M., Liu X. A re-examination of text categorization methods. Proc. of the 22nd International Conf. on Research and Development in Information Retrieval. Berkeley: Univ. of California, 1999, 42–49.



Дополнительные библиографические источники и материалы

Есенин 1995 — Есенин С. А. Полное собрание сочинений в 7 т. Т. 1: Стихотворения. М.: Наука; Голос, 1995.

Клюев 1999 — Клюев Н. А. Сердце единорога. Стихотворения и поэмы. СПб.: РХГИ, 1999.

Песни 1990 — Песни городенского хора / Сост., предисл., нотация напевов Е. Е. Васильевой. Новгород: ОНМЦ, 1990.

Толстой 1969 — Толстой А. К. Собрание сочинений: в 4 т. Т. 1. М.: Правда, 1969.

Система Orphus

Загрузка...
Вверх