Methods of data mining in the task of distinguishing between folklore and author’s texts

 
PIIS0373658X0008823-4-1
DOI10.31857/S0373658X0008823-4
Publication type Article
Status Published
Authors
Affiliation: Petrozavodsk State University
Address: Russian Federation, Petrozavodsk
Affiliation: Petrozavodsk State University
Address: Russian Federation, Petrozavodsk
Affiliation: Petrozavodsk State University
Address: Russian Federation, Petrozavodsk
Journal nameVoprosy Jazykoznanija
EditionIssue 2
Pages61-74
Abstract

The main problem of the study is the distinction between folklore texts and texts stylized as folklore by means of mathematical methods and computer technologies. Five groups of texts were considered: folklore songs from Zaonezhie of 19th — early 20th century, Luga songs from the repertoire of the Gorodensky folk choir, and poems by N. A. Klyuev, A. K. Tolstoy and S. A. Yesenin stylized as folklore. For comparing texts on the basis of their graph-theoretical models, eight parameters were used. These parameters were used in a series of experiments, carried out in the R environment and involving five methods of data mining. All methods showed a fairly high average recognition accuracy (more than 80 %).

Keywordscomputational linguistics, fiction, folklore, neural networks, Russian poetry
Received02.12.2018
Publication date25.06.2020
Number of characters26537
Cite  
100 rub.
When subscribing to an article or issue, the user can download PDF, evaluate the publication or contact the author. Need to register.

Number of purchasers: 0, views: 899

Readers community rating: votes 0

1. Алексеева 2015 — Алексеева Л. В. Проблемы атрибуции в исследованиях о Ф. М. Достоевском (обзор предложенных решений). Неизвестный Достоевский, 2015, 4: 3–10. [Alekseeva L. V. Problems of attribution in studies of Fyodor Dostoevsky: A survey of proposals. Neizvestnyi Dostoevskii, 2015, 4: 3–10.]

2. Алексеевский 2010 — Алексеевский М. Д. Интернет в фольклоре или фольклор в Интернете? (современная фольклористика и виртуальная реальность). От Конгресса к Конгрессу. Навстречу Второму Всероссийскому конгрессу фольклористов: Сб. материалов. М.: ГРЦРФ, 2010, 151–166. [Alekseevskii M. D. Internet in the folklore or folklore in the Internet? Modern folklore studies and virtuality. Ot Kongressa k Kongressu. Navstrechu Vtoromu Vserossiiskomu kongressu fol’kloristov: Conf. proceedings. Moscow: State Republic Center for Russian Folklore, 2010, 151–166.]

3. Андреев 2003 — Андреев В. С. Классификация стихотворных текстов методом дискриминантного анализа. Математическая морфология: электронный математический и медико-биологический журнал, 2003, 5(1): 58–70. [Andreev V. S. Classifying poetry by means of discriminant analysis. Matematicheskaya morfologiya: elektronnyi matematicheskii i mediko-biologicheskii zhurnal, 2003, 5(1): 58–70.]

4. Барахнин и др. 2017 — Барахнин В. Б., Кожемякина О. Ю., Пастушков И. С., Рычкова Е. В. Автоматизированная классификация русских поэтических текстов по жанрам и стилям. Вестник НГУ. Сер.: Лингвистика и межкультурная коммуникация, 2017, 3: 13–23. [Barakhnin V. B., Kozhemyakina O. Yu., Pastushkov I. S., Rychkova E. V. Automatic classification of Russian poetical texts by genre and style. Vestnik NGU. Seriya: Lingvistika i mezhkul’turnaya kommunikatsiya, 2017, 3: 13–23.]

5. Батура 2012 — Батура Т. В. Формальные методы определения авторства текстов. Вестник НГУ. Сер.: Информационные технологии, 2012, 10(4): 81–94. [Batura T. V. Formal methods of text attribution. Vestnik NGU. Seriya: Informatsionnye tekhnologii, 2012, 10(4): 81–94.]

6. Бахтин 1995 — Бахтин М. М. Формы времени и хронотопа в романе. Очерки по исторической поэтике. Вопросы литературы и эстетики. М.: Художественная литература, 1995, 234–405. [Bakhtin M. M. Forms of time and chronotopos in a novel. Essays in historical poetics. Voprosy literatury i estetiki. Moscow: Khudozhestvennaya Literatura, 1995, 234–405.]

7. Ермолаева 2009 — Ермолаева Ю. Е. Классификация стихотворных текстов методом дискриминантного анализа. Вестник Тамбовского университета, 2009, 7(75): 292–296. [Ermolaeva Yu. E. Classifying poetry by means of discriminant analysis. Vestnik Tambovskogo universiteta, 2009, 7(75): 292–296.]

8. Завгородняя 2010 — Завгородняя Г. Ю. Фольклорная стилизация в романе П. И. Мельникова-Печерского «В лесах». Русская речь, 2010, 5: 111–114. [Zavgorodnyaya G. Yu. Folklore stylization in Pavel Melnikov-Pechersky’s novel ‘In the Forests’. Russkaya rech’, 2010, 5: 111–114.]

9. Захаров и др. 2000 — Захаров В. Н., Рогов А. А., Сидоров Ю. В. Поиск грамматического инварианта Ф. М. Достоевского методами статистического анализа. Труды Петрозаводского государственного университета: Сер. «Прикладная математика и информатика», 2000, 9: 67–80. [Zakharov V. N., Rogov A. A., Sidorov Yu. V. Searching for the grammatical invariant of Fyodor Dostoevsky by means of statistical analysis. Trudy Petrozavodskogo gosudarstvennogo universiteta: Seriya «Prikladnaya matematika i informatika», 2000, 9: 67–80.]

10. Калашникова 1999 — Калашникова Р. Б. Бесёды и бесёдные песни Заонежья второй половины XIX века. Петрозаводск: Изд-во ПетрГУ, 1999. [Kalashnikova R. B. Besedy i besednye pesni Zaonezhya vtoroi poloviny XIX veka [“Besyody” and “besyodnye pesni” of the second half of 19th century in Zaonezhie]. Petrozavodsk: Petrozavodsk State Univ. Publ., 1999.]

11. Мануковская 2015 — Мануковская Т. В. Фольклорная стилизация в солдатских песнях Николая Клюева. Вестник ВГУ. Сер.: Филология. Журналистика, 2015, 1: 35–40. [Manukovskaya T. V. Folklore stylization in soldier songs of Nikolay Klyuev. Vestnik VGU. Seriya: Filologiya. Zhurnalistika, 2015, 1: 35–40.]

12. Мироненко 2012 — Мироненко А. Н. Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей. Дис. … канд. техн. наук. Омск: Омский гос. ун-т им. Ф. М. Достоевского, 2012. [Mironenko A. N. Algoritm kontentnoi fil’tratsii spama na baze sovmeshcheniya metoda opornykh vektorov i neironnykh setei [Algorithm of content-filtration of spam on the basis of support vector machine and neural networks]. Ph.D. diss. Omsk: Dostoevsky Omsk State Univ., 2012.]

13. Москин 2013 — Москин Н. Д. Теоретико-графовые модели фольклорных текстов и методы их анализа. Петрозаводск: Изд-во ПетрГУ, 2013. [Moskin N. D. Teoretiko-grafovye modeli fol’klornykh tekstov i metody ikh analiza [Graph-theoretical models of folklore texts and methods of their analysis]. Petrozavodsk: Petrozavodsk State Univ. Publ., 2013.]

14. Мущенко и др. 1978 — Мущенко Е. Г., Скобелев В. П., Кройчик Л. Е. Поэтика сказа. Воронеж: Издво Воронежского ун-та, 1978. [Mushchenko E. G., Skobelev V. P., Kroichik L. E. Poetika skaza [Poetics of “skaz”]. Voronezh: Voronezh Univ. Publ., 1978.]

15. Орлов, Осминин 2010 — Орлов Ю. Н., Осминин К. П. Определение жанра и автора литературного произведения статистическими методами. Прикладная информатика, 2010, 2: 95–108. [Orlov Yu. N., Osminin K. P. Determining genre and authorship of literature with statistical methods. Prikladnaya informatika, 2010, 2: 95–108.]

16. Радченко 2011 — Радченко Д. А. Сетевой фольклор: перспективы исследования. Комплексные исследования традиционной культуры в постсоветский период. Вып. 14. М.: ГРЦРФ, 2011, 417–427. [Radchenko D. A. Web folklore: Research perspectives. Kompleksnye issledovaniya traditsionnoi kul’tury v postsovetskii period. No. 14. Moscow: State Republic Center for Russian Folklore, 2011, 417–427.]

17. Рогов и др. 2014 — Рогов А. А., Седов А. В., Сидоров Ю. В., Суровцова Т. Г. Математические методы атрибуции текстов. Петрозаводск: Изд-во ПетрГУ, 2014. [Rogov A. A., Sedov A. V., Sidorov Yu. V., Surovtsova T. G. Matematicheskie metody atributsii tekstov [Mathematical methods of text attribution]. Pertozavodsk: Petrozavodsk State Univ. Publ., 2014.]

18. Романов 2010 — Романов А. С. Методика и программный комплекс для идентификации автора неизвестного текста. Дис. … канд. техн. наук. Томск: ТГУ, 2010. [Romanov A. S. Metodika i programmnyi kompleks dlya identifikatsii avtora neizvestnogo teksta [Methodics and program complex for identification of text authorship]. Ph.D. diss. Tomsk: Tomsk State Univ., 2010.]

19. Хатямова 2006 — Хатямова М. А. Фольклорная стилизация в малой прозе Е. И. Замятина. Вестник ТГПУ, 2006, 8: 68–75. [Khatyamova M. A. Folklore stylization in Evgeny Zamyatin’s minor prose. Vestnik TGPU, 2006, 8: 68–75.]

20. Шитиков, Мастицкий 2017 — Шитиков В. К., Мастицкий С. Э. Классификация, регрессия и другие алгоритмы Data Mining с использованием R. Тольятти; Лондон [б. и.], 2017. [Shitikov V. K., Mastitskii S. E. Klassifikatsiya, regressiya i drugie algoritmy Data Mining s ispol’zovaniem R [Classification, regression and other algorithms of Data Mining using R]. Tolyatti; London, 2017.]

21. Ястребова 2011 — Ястребова Н. Г. Фольклорная стилизация в повести Ф. Н. Глинки «Лука да Марья». Русская речь, 2011, 3: 110–117. [Yastrebova N. G. Folklore stylization in Fyodor Glinka’s ‘Luka and Marya’. Russkaya rech’, 2011, 3: 110–117.]

22. dos Santos, Gatti 2014 — dos Santos C. N., Gatti M. Deep convolutional neural networks for sentiment analysis of short texts. Proc. of COLING 2014, the 25th International Conf. on Computational Linguistics, Dublin, Ireland, August 23-29, 2014. Dublin, 2014, 69–78.

23. Engels et al. 2007 — Engels S., Lakshmanan V., Craig M. Plagiarism detection using feature-based neural networks. Proc. of the 38th SIGCSE Technical Symposium on Computer Science Education, 2007, 39(1): 34–38.

24. Lai et al. 2015 — Lai S., Xu L., Liu K., Zhao J. Recurrent convolutional neural networks for text classification. Proc. of the 29th AAAI Conf. on Artificial Intelligence, 2015: 2267–2273.

25. Sboev et al. 2018 — Sboev A., Moloshnikov I., Gudovskikh D., Selivanov A., Rybka R., Litvinova T. Deep learning neural nets versus traditional machine learning in gender identification of authors of RusProfiling texts. Procedia Computer Science, 2018, 123: 424–431.

26. Sebastiani 2002 — Sebastiani F. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1): 1–47.

27. Socher et al. 2013 — Socher R., Perelygin A., Wu J. Y., Chuang J., Manning C. D., Ng A. Y., Potts C. Recursive deep models for semantic compositionality over a sentiment treebank. Proc. of the 2013 Conf. on Empirical Methods in Natural Language Processing. Seattle; Washington, 2013, 1631–1642.

28. Stamatatos 2009 — Stamatatos E. A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 2009, 60(3): 538–556.

29. Subroto, Selamat 2014 — Subroto I., Selamat A. Plagiarism detection through Internet using hybrid artificial neural network and support vectors machine. TELKOMNIKA, 2014, 12(1): 209–218.

30. Wu et al. 2016 — Wu Y., Schuster M., Chen Z., Le Q. V., Norouzi M., Macherey W. et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. URL: https:// arxiv.org/abs/1609.08144 (arXiv preprint).

31. Yang, Liu 1999 — Yang Y. M., Liu X. A re-examination of text categorization methods. Proc. of the 22nd International Conf. on Research and Development in Information Retrieval. Berkeley: Univ. of California, 1999, 42–49.



Additional sources and materials

Есенин 1995 — Есенин С. А. Полное собрание сочинений в 7 т. Т. 1: Стихотворения. М.: Наука; Голос, 1995.

Клюев 1999 — Клюев Н. А. Сердце единорога. Стихотворения и поэмы. СПб.: РХГИ, 1999.

Песни 1990 — Песни городенского хора / Сост., предисл., нотация напевов Е. Е. Васильевой. Новгород: ОНМЦ, 1990.

Толстой 1969 — Толстой А. К. Собрание сочинений: в 4 т. Т. 1. М.: Правда, 1969.

Система Orphus

Loading...
Up