Mamontov D., Zepf S., Karpov A., Minker W. Cross-Cultural Automatic Depression Detection Based on Audio Signals. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2025. Vol. 15299. pp. 309-323.. doi: 10.1007/978-3-031-77961-9_23
Ryumina E., Ryumin D., Axyonov A., Ivanko D., Karpov A. Multi-corpus emotion recognition method based on cross-modal gated attention fusion. Pattern Recognition Letters. 2025. Vol. 190. pp. 192-200.. doi: 10.1016/j.patrec.2025.02.024
Ryumin D., Axyonov A., Ryumina E., Ivanko D., Kashevnik A., Karpov A. Audio-visual speech recognition based on regulated transformer and spatio-temporal fusion strategy for driver assistive systems. Expert Systems with Applications. 2024. Vol. 252. No. Part A. pp. 124159.. doi: 10.1016/j.eswa.2024.124159
Ryumina E., Markitantov M., Ryumin D., Kaya H., Karpov A. Zero-Shot Audio-Visual Compound Expression Recognition Method based on Emotion Probability Fusion. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2024. pp. 4752-4760.. doi: 10.1109/cvprw63382.2024.00478
Ryumina E., Markitantov M., Ryumin D., Kaya H., Karpov A. Audio-Visual Compound Expression Recognition Method based on Late Modality Fusion and Rule-based Decision. arXiv.org [база препринтов]. 2024. pp. 1-7.
Axyonov A., Ryumin D., Ivanko D., Kashevnik A., Karpov A. Audio-Visual Speech Recognition In-The-Wild: Multi-Angle Vehicle Cabin Corpus and Attention-Based Method. 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2024. pp. 8195-8199.. doi: 10.1109/ICASSP48485.2024.10448048
Kosulin K., Karpov A. A Survey of Masked Face Recognition Methods and Corpora/Data. Springer Geography. 2024. Vol. F2317. pp. 27-37.. doi: 10.1007/978-3-031-50609-3_3
Ryumina E., Ryumin D., Karpov A. OCEAN-AI: open multimodal framework for personality traits assessment and HR-processes automatization. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2024. pp. 3630-3631.
Двойникова А.А., Кагиров И.А., Карпов А.А. Метод распознавания сентимента и эмоций в транскрипциях русскоязычной речи с использованием машинного перевода [A method for recognition of sentiment and emotions in russian speech transcripts using machine translation]. Информатика и автоматизация [Informatics and Automation]. 2024. Т. 23. № 4. С. 1173-1198.. doi: 10.15622/ia.23.4.9
Ryumina E., Markitantov M., Ryumin D., Karpov A. Gated Siamese Fusion Network based on Multimodal Deep and Hand-Crafted Features for Personality Traits Assessment. Pattern Recognition Letters. 2024. Vol. 185. pp. 45-51.. doi: 10.1016/j.patrec.2024.07.004
Дресвянский Д.В., Маркитантов М.В., Jiawei Y., Peitong L., Kaya H., Карпов А.А. SUN Team's Contribution to ABAW 2024 Competition: Audio-visual Valence-Arousal Estimation and Expression Recognition. arXiv.org [база препринтов]. 2024.
Двойникова А.А., Карпов А.А. Методика создания многомодальных корпусов данных для аудиовизуального анализа вовлеченности и эмоций участников виртуальной коммуникации. Известия высших учебных заведений. Приборостроение. 2024. Т. 67. № 11. С. 984–993.. doi: 10.17586/0021-3454-2024-67-11-984-993
Ryumina E., Markitantov M., Ryumin D., Karpov A. OCEAN-AI framework with EmoFormer cross-hemiface attention approach for personality traits assessment. Expert Systems with Applications. 2024. Vol. 239. pp. 122441.. doi: 10.1016/j.eswa.2023.122441
Dresvyanskiy D., Markitantov M., Yu J., Kaya H., Karpov A. Multi-modal Arousal and Valence Estimation under Noisy Conditions. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2024. pp. 4773-4783.. doi: 10.1109/cvprw63382.2024.00480
Аксёнов А., Рюмина Е.В., Рюмин Д., Иванько Д., Карпов А.А. Нейросетевой метод визуального распознавания голосовых команд водителя с использованием механизма внимания [Neural network-based method for visual recognition of driver's voice commands using attention mechanism]. Научно-технический вестник информационных технологий, механики и оптики [Scientific and Technical Journal of Information Technologies, Mechanics and Optics]. 2023. Т. 23. № 4(146). С. 767-775.. doi: 10.17586/2226-1494-2023-23-4-767-775
Dvoynikova A., Karpov A. Bimodal sentiment and emotion classification with multi-head attention fusion of acoustic and linguistic information. Компьютерная лингвистика и интеллектуальные технологии = Computational Linguistics and Intellectual Technologies [Komp'juternaja Lingvistika i Intellektual'nye Tehnologii]. 2023. No. 22. pp. 51-61.
Ivanko D., Ryumina E., Ryumin D., Axyonov A., Kashevnik A., Karpov A. EMO-AVSR: Two-Level Approach for Audio-Visual Emotional Speech Recognition. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2023. Vol. 14338. pp. 18-31.. doi: 10.1007/978-3-031-48309-7_2
Ivanko D., Ryumin D., Karpov A. A Review of Recent Advances on Deep Learning Methods for Audio-Visual Speech Recognition. Mathematics. 2023. Vol. 11. No. 12. pp. 2665.. doi: 10.3390/math11122665
Karpov A., Dvoynikova A., Ryumina E. Intelligent Interfaces and Systems for Human-Computer Interaction. Lecture Notes in Networks and Systems. 2023. Vol. 776. pp. 3-13.. doi: 10.1007/978-3-031-43789-2_1
Ryumina E., Markitantov M., Karpov A. Multi-Corpus Learning for Audio–Visual Emotions and Sentiment Recognition. Mathematics. 2023. Vol. 11. No. 16. pp. 3519.. doi: 10.3390/math11163519
Ryumina E., Ryumin D., Markitantov M., Kaya H., Karpov A. Multimodal Personality Traits Assessment (MuPTA) Corpus: The Impact of Spontaneous and Read Speech. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2023. pp. 4049-4053.. doi: 10.21437/Interspeech.2023-1686
Riumina E.V., Karpov A.A. Impact of Visual Modalities in Multimodal Personality and Affective Computing. International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences - ISPRS Archives. 2023. Vol. 48. No. 2/W3-2023. pp. 217–224.. doi: 10.5194/isprs-archives-XLVIII-2-W3-2023-217-2023
Dvoynikova A., Markitantov M., Ryumina E., Uzdiaev M., Velichko A., Kagirov I., Kipyatkova I., Lyakso E., Karpov A. An analysis of automatic techniques for recognizing human's affective states by speech and multimodal data. Proceedings of the 24th International Congress on Acoustics (ICA 2022). 2022. pp. 22-33.
Letenkov M.A., Iakovlev R.N., Markitantov M.V., Ryumin D.A., Saveliev A.I., Karpov A.A. Method for Generating Synthetic Images of Masked Human Faces. Научная визуализация [Scientific Visualization]. 2022. Vol. 14. No. 2. pp. 1-17.. doi: 10.26583/sv.14.2.01
Velichko A., Markitantov M., Kaya H., Karpov A. Complex Paralinguistic Analysis of Speech: Predicting Gender, Emotions and Deception in a Hierarchical Framework. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2022. pp. 4735-4739.. doi: 10.21437/Interspeech.2022-11294
Двойникова А.А., Кагиров И.А., Карпов А.А. Аналитический обзор методов автоматического распознавания вовлеченности пользователя в виртуальную коммуникацию [Analytical review of methods for automatic detection of user engagement in virtual communication]. Информационно-управляющие системы [Informatsionno-Upravliaiushchie Sistemy]. 2022. № 5(120). С. 12-22.. doi: 10.31799/1684-8853-2022-5-12-22
Косулин К.Э., Карпов А.А. A survey of masked face recognition methods and corpora/data. International Journal of Open Information Technologies. 2022. Т. 10. № 7. С. .
Markitantov M., Ryumina E., Ryumin D., Karpov A. Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) Corpus: Multimodal Mask Type Recognition Task. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2022. pp. 1756-1760.. doi: 10.21437/Interspeech.2022-10240
Ivanko D., Ryumin D., Kashevnik A., Axyonov A., Karpov A. Visual Speech Recognition in a Driver Assistance System. 30th European Signal Processing Conference (EUSIPCO). 2022. pp. 1131-1135.. doi: 10.23919/EUSIPCO55093.2022.9909819
Двойникова А.А., Маркитантов М.В., Рюмина Е.В., Уздяев М.Ю., Величко А.Н., Рюмин Д., Ляксо Е.Е., Карпов А.А. Анализ информационного и математического обеспечения для распознавания аффективных состояний человека [Analysis of infoware and software for human affective states recognition]. Информатика и автоматизация [Informatics and Automation]. 2022. Т. 21. № 6. С. 1097-1144.. doi: 10.15622/ia.21.6.2
Ryumina E., Dresvyanskiy D., Karpov A. In Search of a Robust Facial Expressions Recognition Model: A Large-Scale Visual Cross-Corpus Study. Neurocomputing. 2022. Vol. 514. pp. 435-450.. doi: 10.1016/j.neucom.2022.10.013
Ivanko D., Ryumin D., Kashevnik A., Axyonov A., Kitenko A., Lashkov I., Karpov A. DAVIS: Driver's Audio-Visual Speech Recognition. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2022. pp. 1141-1142.
Mamontov D., Minker W., Karpov A. Self-Configuring Genetic Programming Feature Generation in Affect Recognition Tasks. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2022. Vol. 13721. pp. 464-476.. doi: 10.1007/978-3-031-20980-2_40
Dresvyanskiy D., Ryumina E., Kaya H., Markitantov M., Karpov A., Minker W. End-to-End Modeling and Transfer Learning for Audiovisual Emotion Recognition in-the-Wild. Multimodal Technologies and Interaction. 2022. Vol. 6. No. 2. pp. 11.. doi: 10.3390/mti6020011
Летенков М.А., Яковлев Р.Н., Маркитантов М.В., Рюмин Д., Карпов А.А. Применение методов синтеза обучающих данных для распознавания частично скрытых лиц на изображениях. Известия высших учебных заведений. Приборостроение. 2022. Т. 65. № 11. С. 842-850.. doi: 10.17586/0021-3454-2022-65-11-842-850
Косулин К.Э., Карпов А.А. Методы аудиовизуального распознавания людей в масках [Methods for audiovisual recognition of people in masks]. Научно-технический вестник информационных технологий, механики и оптики [Scientific and Technical Journal of Information Technologies, Mechanics and Optics]. 2022. Т. 22. № 3(139). С. 415-432.. doi: 10.17586/2226-1494-2022-22-3-415-432
Организация научно-исследовательской работы в корпоративной магистратуре
Рюмина Е.В., Рюмин Д., Маркитантов М.В., Карпов А.А. Метод генерации обучающих данных для компьютерной системы обнаружения защитных масок на лицах людей [A method for generating training data for a protective face mask detection system]. Компьютерная оптика [Computer Optics]. 2022. Т. 46. № 4. С. 603-611.. doi: 10.18287/2412-6179-CO-1039
Аксёнов А., Рюмин Д., Кашевник А.М., Иванько Д., Карпов А.А. Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством [Method for visual analysis of driver's face for automatic lip-reading in the wild]. Компьютерная оптика [Computer Optics]. 2022. Т. 46. № 6. С. 955-962.. doi: 10.18287/2412-6179-CO-1092
Kosulin K.E., Karpov A. A survey of masked face recognition methods and corpora/data. CEUR Workshop Proceedings. 2022. Vol. X. No. X. pp. X.
Dresvyanskiy D., Sinha Y., Busch M., Siegert I., Karpov A., Minker W. DyCoDa: A Multi-modal Data Collection of Multi-user Remote Survival Game Recordings. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2022. Vol. 13721. pp. 163-177.. doi: 10.1007/978-3-031-20980-2_15
Ivanko D., Ryumin D., Axyonov A., Kashevnik A., Karpov A. Multi-Speaker Audio-Visual Corpus RUSAVIC: Russian Audio-Visual Speech in Cars. 13th International Conference on Language Resources and Evaluation, LREC 2022. 2022. pp. 1555-1559.
Ivanko D., Kashevnik A., Ryumin D., Kitenko A., Axyonov A., Lashkov I., Karpov A. MIDriveSafely: Multimodal Interaction for Drive Safely. ACM International Conference Proceeding Series. 2022. pp. 733-735.. doi: 10.1145/3536221.3557037
Двойникова А.А., Маркитантов М.В., Рюмина Е.В., Рюмин Д., Карпов А.А. Аналитический обзор аудиовизуальных систем для определения средств индивидуальной защиты на лице человека [Analytical review of audiovisual systems for determining personal protective equipment on a person's face]. Информатика и автоматизация [Informatics and Automation]. 2021. Т. 20. № 5. С. 1116-1152.. doi: 10.15622/20.5.5
Verkholyak O., Dresvyanskiy D., Dvoynikova A., Kotov D., Ryumina E., Velichko A., Mamontov D., Minker W., Karpov A. Ensemble-within-ensemble classification for escalation prediction from speech. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2021. Vol. 6. pp. 4321-4325.. doi: 10.21437/Interspeech.2021-1821
Ryumina E., Ryumin D., Ivanko D., Karpov A. A Novel Method for Protective Face Mask Detection Using Convolutional Neural Networks and Image Histograms. International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences - ISPRS Archives. 2021. Vol. 54. No. 2/W1. pp. 177–182.. doi: 10.5194/isprs-archives-XLIV-2-W1-2021-177-2021
Verkholyak O., Dvoynikova A., Karpov A. A Bimodal Approach for Speech Emotion Recognition using Audio and Text. Journal of Internet Services and Information Security. 2021. Vol. 11. No. 1. pp. 80-96.. doi: 10.22667/JISIS.2021.02.28.080
Двойникова А.А., Мамонтов Д.Ю., Карпов А.А. Автоматическое определение эмоционального состояния участников предметных разговоров по транскрипциям речи. Альманах научных работ молодых ученых Университета ИТМО. 2021. Т. 3. С. 63-68.
Двойникова А.А., Карпов А.А. Влияние обратного перевода на распознавание эмоций в транскрипциях спонтанной русской речи. Анализ разговорной русской речи (АРЗ-2021): труды девятого междисциплинарного семинара. 2021. С. 17-23.
Ryumina E., Verkholyak O., Karpov A. Annotation Confidence vs. Training Sample Size: Trade-off Solution for Partially-Continuous Categorical Emotion Recognition. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2021. Vol. 6. pp. 3690-3694.. doi: 10.21437/Interspeech.2021-1636
Нейросетевой подход для автоматического распознавания эмоций человека по мимике лица
Влияние нормализации признаков текстовых транскрипций на сентимент-анализ
Методы и модели автоматического распознавания речи
Рюмин Д., Кагиров И.А., Аксёнов А., Карпов А.А. Аналитический обзор моделей и методов автоматического распознавания жестов и жестовых языков [Analytical review of models and methods for automatic recognition of gestures and sign languages]. Информационно-управляющие системы [Informatsionno-Upravliaiushchie Sistemy]. 2021. № 6(115). С. 10-20.. doi: 10.31799/1684-8853-2021-6-10-20
Kashevnik A., Lashkov I., Axyonov A., Ivanko D., Ryumin D., Kolchin A., Karpov A. Multimodal Corpus Design for Audio-Visual Speech Recognition in Vehicle Cabin. IEEE Access. 2021. Vol. 9. pp. 34986-35003.. doi: 10.1109/ACCESS.2021.3062752
Dresvyanskiy D., Siegert I., Karpov A., Minker W. Engagement Recognition Using Audio Channel Only. The Proceedings of "1st AI-DEbate Workshop : workshop establishing An InterDisciplinary pErspective on speech-BAsed TEchnology". 2021. pp. 19-22.. doi: 10.25673/38475
Карпов А.А., Потапова Р.К., Потапов В.В. XXII Международная конференция SPECOM-2020 “Речь и компьютер". Известия Российской академии наук. Серия литературы и языка. 2021. Т. 80. № 2. С. 107-115.. doi: 10.31857/S241377150014560-9
Рюмина Е.В., Карпов А.А. Аналитический обзор методов распознавания эмоций по выражениям лица человека [Analytical review of methods for emotion recognition by human face expressions]. Научно-технический вестник информационных технологий, механики и оптики [Scientific and Technical Journal of Information Technologies, Mechanics and Optics]. 2020. Т. 20. № 2(126). С. 163-176.. doi: 10.17586/2226-1494-2020-20-2-163-176
Ivanko D., Ryumin D., Karpov A. An experimental analysis of different approaches to audio–visual speech recognition and lip-reading. Smart Innovation, Systems and Technologies. 2020. Vol. 187. pp. 197-209.. doi: 10.1007/978-981-15-5580-0_16
Сравнительный анализ методов уменьшения дисбаланса набора данных для повышения точности мультиклассовой классификации выражений лиц
Голосовой портрет ребенка с типичным и атипичным развитием
Ivanko D., Ryumin D., Kipyatkova I., Axyonov A., Karpov A. Lip-reading Using Pixel-Based and Geometry-based Features for Multimodal Human-robot Interfaces. Smart Innovation, Systems and Technologies. 2020. Vol. 154. pp. 477-486.. doi: 10.1007/978-981-13-9267-2_39
Маркитантов М.В., Карпов А.А. Автоматическое распознавание пола и возраста человека с помощью нейронных сетей с временной задержкой на основе акустических признаков. Труды Всероссийской акустической конференции: материалы III Всероссийской конференции (Санкт-Петербург, 21–25сентября 2020г.). 2020. С. 374-380.
Ryumina E., Karpov A. Facial expression recognition using distance importance scores between facial landmarks. CEUR Workshop Proceedings. 2020. Vol. 2744.
Рюмина Е.В., Карпов А.А. Сравнительный анализ методов устранения дисбаланса классов эмоций в видеоданных выражений лиц [Comparative analysis of methods for imbalance elimination of emotion classes in video data of facial expressions]. Научно-технический вестник информационных технологий, механики и оптики [Scientific and Technical Journal of Information Technologies, Mechanics and Optics]. 2020. Т. 20. № 5(129). С. 683–691.. doi: 10.17586/2226-1494-2020-20-5-683-691
Двойникова А.А., Верхоляк О.В., Карпов А.А. Сентимент-анализ разговорной речи при помощи метода, основанного на тональных словарях. Альманах научных работ молодых ученых Университета ИТМО. 2020. Т. 3. С. 75-80.
Кагиров И.А., Рюмин Д., Аксёнов А., Карпов А.А. Мультимедийная база данных жестов русского жестового языка в трехмерном формате [Multimedia database of russian sign language items in 3d]. Вопросы языкознания [Voprosy Jazykoznanija]. 2020. № 1. С. 104-123.. doi: 10.31857/S0373658X0008302-1
Akhtiamov O., Siegert I., Karpov A., Minker W. Using complexity-identical human-and machine-directed utterances to investigate addressee detection for spoken dialogue systems. Sensors. 2020. Vol. 20. No. 9. pp. 2740.. doi: 10.3390/s20092740
Kagirov I., Karpov A., Kipyatkova I.S., Klyuzhev K., Kudryavcev I.V., Ryumin D. Lower Limbs Exoskeleton Control System Based on Intelligent Human-Machine Interface. Studies in Computational Intelligence. 2020. Vol. 868. pp. 457-466.. doi: 10.1007/978-3-030-32258-8_54
Двойникова А.А., Карпов А.А. Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных [Analytical review of approaches to Russian text sentiment recognition]. Информационно-управляющие системы [Informatsionno-Upravliaiushchie Sistemy]. 2020. № 4(107). С. 20-30.. doi: 10.31799/1684-8853-2020-4-20-30
Аксёнов А., Иванько Д., Лашков И.Б., Рюмин Д., Кашевник А.М., Карпов А.А. Методика создания многомодального корпуса для аудиовизуального распознавания речи в ассистивных транспортных системах. Информатизация и связь. 2020. № 5. С. 87-93.. doi: 10.34219/2078-8320-2020-11-5-87-93
Kaya H., Verkholyak O., Markitantov M., Karpov A. Combining Clustering and Functionals based Acoustic Feature Representations for Classification of Baby Sounds. ICMI 2020 Companion - Companion Publication of the 2020 International Conference on Multimodal Interaction. 2020. pp. 509-513.. doi: 10.1145/3395035.3425182
Markitantov M., Dresvyanskiy D., Mamontov D., Kaya H., Minker W., Karpov A. Ensembling End-to-End Deep Models for Computational Paralinguistics Tasks: ComParE 2020 Mask and Breathing Sub-Challenges. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2020. pp. 2072-2076.. doi: 10.21437/Interspeech.2020-2666
Dvoynikova A., Verkholyak O., Karpov A. Emotion Recognition and Sentiment Analysis of Extemporaneous Speech Transcriptions in Russian. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2020. Vol. 12335 LNAI. pp. 136–144.. doi: 10.1007/978-3-030-60276-5_14
Ryumin D., Kagirov I., Axyonov A., Pavlyuk N., Saveliev A., Kipyatkova I., Zelezny M., Mporas I., Karpov A. A Multimodal User Interface for an Assistive Robotic Shopping Cart. Electronics. 2020. Vol. 9. No. 12. pp. 2093.. doi: 10.3390/electronics9122093
Ryumin D., Ivanko D., Kagirov I., Axyonov A., Karpov A.A. Vision-Based Assistive Systems for Deaf and Hearing Impaired People. Intelligent Systems Reference Library. 2020. Vol. 175. pp. 197-223.. doi: 10.1007/978-3-030-33795-7_7
Dresvyanskiy D., Ryumina E., Kaya H., Markitantov M., Karpov A., Minker W. An Audio-Video Deep and Transfer Learning Framework for Multimodal Emotion Recognition in the wild. arXiv.org [база препринтов]. 2020. pp. 1-7.
Kagirov I., Ivanko D., Ryumin D., Axyonov A., Karpov A. TheRuSLan: Database of Russian Sign Language. Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020). 2020. pp. 6079-6085.
Dvoynikova A., Verkholyak O., Karpov A. Analytical review of methods for identifying emotions in text data. CEUR Workshop Proceedings. 2020. Vol. 2552. pp. 8-21.
Федотов Д.В., Верхоляк О.В., Карпов А.А. Контекстное непрерывное распознавание эмоций в русской речи с использованием рекуррентных нейронных сетей. Анализ разговорной русской речи (АРЗ-2019): труды восьмого междисциплинарного семинара. 2019. С. 96-99.
Ryumin D., Ivanko D.V., Axyonov A., Kagirov I., Karpov A.A., Zelezny M. Human-Robot Interaction with Smart Shopping Trolley using Sign Language: Data Сollection. IEEE International Conference on Pervasive Computing and Communications Workshops, PerCom Workshops 2019. 2019. pp. 949-954.. doi: 10.1109/PERCOMW.2019.8730886
Verkholyak O., Fedotov D., Kaya H., Zhang Y., Karpov A. Hierarchical Two-level Modelling of Emotional States in Spoken Dialog Systems. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. 2019. pp. 6700-6704.. doi: 10.1109/ICASSP.2019.8683240
Кагиров И.А., Карпов А.А., Кипяткова И.С., Клюжев К., Кудрявцев А.И., Кудрявцев И.А., Рюмин Д.А. Интеллектуальный интерфейс для управления роботизированным медицинским экзоскелетом нижних конечностей Remotion [Intellectual interface to control a robotic medical exoskeleton of the lower limbs «remotion»]. Авиакосмическая и экологическая медицина [Aviakosmicheskaya i Ekologicheskaya Meditsina]. 2019. Т. 53. № 5. С. 92-98.. doi: 10.21687/0233-528X-2019-53-5-92-98
Verkholyak O.V., Kaya H., Karpov A.A. Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification. Труды СПИИРАН [SPIIRAS Proceedings]. 2019. Vol. 18. No. 1(62). pp. 30-56.. doi: 10.15622/sp.18.1.30-56
Рюмин Д., Аксёнов А., Карпов А.А. Автоматическое обнаружение лиц для человеко-машинного взаимодействия. Альманах научных работ молодых ученых Университета ИТМО. 2019. Т. 3. С. 33-37.
Иванько Д., Рюмин Д., Карпов А.А., Железны М. Исследование влияния высокоскоростных видеоданных на точность распознавания аудиовизуальной речи [Measuring the effect of high-speed video data on the audio-visual speech recognition accuracy]. Информационно-управляющие системы [Informatsionno-Upravliaiushchie Sistemy]. 2019. № 2(99). С. 26-34.. doi: 10.31799/1684-8853-2019-2-26-34
Ryumin D., Kagirov I., Ivanko D.V., Axyonov A., Karpov A.A. Automatic Detection and Recognition of 3D Manual Gestures for Human-machine Interaction. International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences - ISPRS Archives. 2019. Vol. 42. No. 2/W12. pp. 179-183.. doi: 10.5194/isprs-archives-XLII-2-W12-179-2019
Kashevnik A., Lashkov I., Ryumin D., Karpov A. Smartphone-based driver support in vehicle cabin: Human-computer interaction interface. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2019. Vol. 11659 LNAI. pp. 129-138.. doi: 10.1007/978-3-030-26118-4_13
Ivanko D., Ryumin D., Karpov A.A. Automatic Lip-Reading of Hearing Impaired People. International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences - ISPRS Archives. 2019. Vol. 42. No. 2/W12. pp. 97-101.. doi: 10.5194/isprs-archives-XLII-2-W12-97-2019
Маркитантов М.В., Карпов А.А. Автоматическое распознавание возраста и пола диктора на основе глубоких нейронных сетей. Информационно-измерительные и управляющие системы. 2019. Т. 17. № 5. С. 76-83.. doi: 10.18127/j20700814-201905-10
Akhtiamov O., Siegert I., Karpov A., Minker W. Cross-Corpus Data Augmentation for Acoustic Addressee Detection. 20th Annual Meeting of the Special Interest Group on Discourse and Dialogue, SIGDIAL 2019. 2019. pp. 274-283.. doi: 10.18653/v1/W19-5933
Fedotov D., Kim B., Karpov A., Minker W. Time-Continuous Emotion Recognition Using Spectrogram Based CNN-RNN Modelling. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2019. Vol. 11658. pp. 93-102.. doi: 10.1007/978-3-030-26061-3_10
Kaya H., Fedotov D., Yesilkanat A., Verkholyak O., Zhang Y., Karpov A. LSTM based Cross-corpus and Cross-task Acoustic Emotion Recognition. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2018. pp. 521-525.. doi: 10.21437/Interspeech.2018-2298
Ivanko D., Karpov A.A., Fedotov D., Kipyatkova I., Ryumin D., Ivanko D., Minker W., Zelezny M. Multimodal speech recognition: increasing accuracy using high speed video data. Journal on Multimodal User Interfaces. 2018. Vol. 12. No. 4. pp. 319-328.. doi: 10.1007/s12193-018-0267-1
Автоматическая оценка положения головы на основе трехмерных ориентиров лица
Иванько Д., Федотов Д.В., Карпов А.А. Повышение точности автоматического распознавания визуальной русской речи: оптимизация виземных классов. Научно-технический вестник информационных технологий, механики и оптики [Scientific and Technical Journal of Information Technologies, Mechanics and Optics]. 2018. Т. 18. № 2(114). С. 346-349.. doi: 10.17586/2226-1494-2018-18-2-346-349
Velichko A., Budkov V., Kagirov I., Karpov A.A. Comparative Analysis of Classification Methods for Automatic Deception Detection in Speech. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2018. Vol. 11096. pp. 737-746.. doi: 10.1007/978-3-319-99579-3_75
Pugachev A., Akhtiamov O., Karpov A., Minker W. Deep Learning for Acoustic Addressee Detection in Spoken Dialogue Systems. Communications in Computer and Information Science. 2018. Vol. 789. pp. 45-53.. doi: 10.1007/978-3-319-71746-3_4
Vatamaniuk I.V., Budkov V.Y., Kipyatkova I.S., Karpov A. Methods and Algorithms of Audio-Video Signal Processing for Analysis of Indoor Human Activity. Intelligent Systems Reference Library. 2018. Vol. 136. pp. 139-173.. doi: 10.1007/978-3-319-67994-5_6
Hlavac M., Gruber I., Zhelezny M., Karpov A. LipsID using 3D Convolutional Neural Networks. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2018. Vol. 11096. pp. 209-214.. doi: 10.1007/978-3-319-99579-3_22
Главач М., Карпов А.А. LipsID detection with CNN. Альманах научных работ молодых ученых Университета ИТМО. 2018. Т. 2. С. 171-173.
Markovnikov N., Kipyatkova I., Karpov A., Filchenkov A. Deep neural networks in Russian speech recognition. Communications in Computer and Information Science. 2018. Vol. 789. pp. 54-67.. doi: 10.1007/978-3-319-71746-3_5
Verkholyak O., Karpov A. Combined Feature Representation for Emotion Classification from Russian Speech. Communications in Computer and Information Science. 2018. Vol. 789. pp. 68-73.. doi: 10.1007/978-3-319-71746-3_6
Маркитантов М.В., Карпов А.А. Аналитический обзор подходов к автоматическому распознаванию возраста диктора по голосу. Информационные технологии в управлении (ИТУ-2018): материалы 11-й конференции по проблемам управления (Санкт-Петербург, 2-4 октября 2018г.). 2018. С. 539-542.
Gruber I., Ryumin D., Hruz M., Karpov A. Sign Language Numeral Gestures Recognition using Convolutional Neural Network. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2018. Vol. 11097. pp. 70-77.. doi: 10.1007/978-3-319-99582-3_8
Грубер И., Карпов А.А. ResNet vs DenseNet: comparison of the state-of-the-art architectures for face classification. Альманах научных работ молодых ученых Университета ИТМО. 2018. Т. 2. С. 184-187.
Ryumin D., Karpov A.A. Towards Automatic Recognition of Sign Language Gestures Using Kinect 2.0. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2017. Vol. 10278. pp. 89-101.. doi: 10.1007/978-3-319-58703-5_7
Akhtiamov O., Sidorov M., Karpov A., Minker W. Speech and text analysis for multimodal addressee detection in human-human-computer interaction. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2017. pp. 2521-2525.. doi: 10.21437/Interspeech.2017-501
Kaya H., Ali Salah A., Karpov A., Frolova O., Grigorev A., Lyakso E.E. Emotion, age, and gender classification in children’s speech by humans and machines. Computer Speech and Language. 2017. Vol. 46. pp. 268-283.. doi: 10.1016/j.csl.2017.06.002
Глубокая нейронная сеть для определения обращения человека к автоматической диалоговой системе
Akhtiamov O., Ubskii D., Feldina E., Pugachev A., Karpov A., Minker W. Are you addressing me? Multimodal addressee detection in human-human-computer conversations. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2017. Vol. 10458. pp. 152–161.. doi: 10.1007/978-3-319-66429-3_14
Ivanko D., Karpov A., Ryumin D., Kipyatkova I.S., Saveliev A., Budkov V., Ivanko D., Zelezny M. Using a High-Speed Video Camera for Robust Audio-Visual Speech Recognition in Acoustically Noisy Conditions. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2017. Vol. 10458. pp. 757-766.. doi: 10.1007/978-3-319-66429-3_76
Анализ влияния интонационных контуров на точность распознавания эмоциональных состояний на базе данных русской эмоциональной речи Ruslana
Ryumin D., Karpov A. Parametric representation of the speaker’s lips for multimodal sign language and speech recognition. International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences - ISPRS Archives. 2017. Vol. 42-2. No. 4. pp. 155-161.. doi: 10.5194/isprs-archives-XLII-2-W4-155-2017
Gruber I., Hlavac M., Zelezny M., Karpov A. Facing Face Recognition with ResNet: Round One. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2017. Vol. 10459. pp. 67-74.. doi: 10.1007/978-3-319-66471-2_8
Kaya H., Karpov A.A. Introducing Weighted Kernel Classifiers for Handling Imbalanced Paralinguistic Corpora: Snoring, Addressee and Cold. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2017. pp. 3527-3531.. doi: 10.21437/Interspeech.2017-653
Hlavac M., Gruber I., Zelezny M., Karpov A. Semi-automatic Facial Key-point Dataset Creation. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2017. Vol. 10458. pp. 662–668.. doi: 10.1007/978-3-319-66429-3_66
Автоматическое распознавание речи
Kaya H., Karpov A.A., Ali Salah A. Robust Acoustic Emotion Recognition based on Cascaded Normalization and Extreme Learning Machines. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9719. pp. 115-123.. doi: 10.1007/978-3-319-40663-3_14
Gruber I., Hlavac M., Hruz M., Zelezny M., Karpov A.A. An Analysis of Visual Faces Datasets. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9812. pp. 18-26.. doi: 10.1007/978-3-319-43955-6_3
Kipyatkova I., Karpov A. Language Models with RNNs for Rescoring Hypotheses of Russian ASR. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9719. pp. 418-425.. doi: 10.1007/978-3-319-40663-3_48
Рюмин Д., Карпов А.А. Алгоритм выделения рук человека на изображениях с сенсора Kinect. Альманах научных работ молодых ученых Университета ИТМО. 2016. Т. 4. С. 249-252.
Kipyatkova I.S., Karpov A.A. Dnn-based acoustic modeling for Russian speech recognition using Kaldi. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9811. pp. 246-253.. doi: 10.1007/978-3-319-43958-7_29
Карпов А.А., Кайа Х., Салах А. Актуальные задачи и достижения систем паралингвистического анализа речи. Научно-технический вестник информационных технологий, механики и оптики [Scientific and Technical Journal of Information Technologies, Mechanics and Optics]. 2016. Т. 16. № 4(104). С. 581–592.. doi: 10.17586/2226-1494-2016-16-4-581-592
Рюмин Д., Карпов А.А. Автоматизированная система распознавания отдельных жестов рук с применением сенсора Kinect. Информационные технологии в управлении (ИТУ-2016): материалы 9-й конференции по проблемам управления (Санкт-Петербург, 4-6октября 2016г.). 2016. С. 838-846.
Автоматическое распознавание речи
Karpov A., Ronzhin A.L., Kipyatkova I.S., Ronzhin A., Verkhodanova V.O., Saveliev A., Zelezny M. Bimodal Speech Recognition Fusing Audio-Visual Modalities. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9732. pp. 170-179.. doi: 10.1007/978-3-319-39516-6_16
Иванько Д., Кипяткова И.С., Ронжин А.Л., Карпов А.А. Анализ методов многомодального объединения информации для аудиовизуального распознавания речи. Научно-технический вестник информационных технологий, механики и оптики [Scientific and Technical Journal of Information Technologies, Mechanics and Optics]. 2016. Т. 16. № 3(103). С. 387-401.. doi: 10.17586/2226-1494-2016-16-3-387-401
Иванько Д., Карпов А.А. Анализ перспектив применения высокоскоростных камер для распознавания динамической информации [An analysis of perspectives for using high-speed cameras in processing dynamic video information]. Труды СПИИРАН [SPIIRAS Proceedings]. 2016. № 1(44). С. 98-113.. doi: 10.15622/SP.44.7
Ronzhin A., Basov O.O., Motienko A.I., Karpov A.A., Mikhailov Y.V., Zelezny M. Multimodal information coding system for wearable devices of advanced uniform. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9734. pp. 539-545.. doi: 10.1007/978-3-319-40349-6_52
Иванько Д., Карпов А.А. Применение высокоскоростной камеры в задачах человеко-машинного взаимодействия. Информационные технологии в управлении (ИТУ-2016): материалы 9-й конференции по проблемам управления (Санкт-Петербург, 4-6октября 2016г.). 2016. С. 801-806.
Verkhodanova V.O., Ronzhin A., Kipyatkova I.S., Ivanko D.V., Karpov A.A., Zhelezny M. HAVRUS Corpus: High-Speed Recordings of Audio-Visual Russian Speech. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9811. pp. 338-345.. doi: 10.1007/978-3-319-43958-7_40
Рюмин Д., Карпов А.А. Вычисление информативных видеопризнаков для распознавания жестов рук. Сборник тезисов докладов конгресса молодых ученых (V Всероссийский конгресс молодых ученых, 12-15 апреля 2016 г.). Электронное издание. 2016.
Kaya H., Karpov A., Ali Salah A. Fisher Vectors with Cascaded Normalization for Paralinguistic Analysis. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2015. pp. 909-913.
Karpov A.A., Ronzhin A.L., Kipyatkova I. Automatic Analysis of Speech and Acoustic Events for Ambient Assisted Living. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2015. Vol. 9176. pp. 455-463.. doi: 10.1007/978-3-319-20681-3_43
Kipyatkova I., Karpov A.A. Development of Factored Language Models for Automatic Russian Speech Recognition. Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. 2015. Vol. 1. No. 14. pp. 241-254.
Lyakso E., Frolova O., Dmitrieva E., Grigorev A., Kaya H., Ali Salah A., Karpov A. EmoChildRu: Emotional Child Russian Speech Corpus. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2015. Vol. 9319. pp. 144-152.. doi: 10.1007/978-3-319-23132-7_18
Kipyatkova I.S., Karpov A.A. Recurrent neural network-based language modeling for an automatic Russian speech recognition system. Proceedings of Artificial Intelligence and Natural Language and Information Extraction, Social Media and Web Search FRUCT Conference, AINL-ISMW FRUCT 2015. 2015. pp. 33-38.. doi: 10.1109/AINL-ISMW-FRUCT.2015.7382966
Карпов А.А. 4-й Международный семинар по речевым технологиям для малоресурсных языков SLTU-2014 [4 th International workshop on spoken language technologies for under-resourced languages]. Вопросы языкознания [Voprosy Jazykoznanija]. 2015. № 2. С. 150-152.
Методологические основы синтеза полимодальных инфокоммуникационных систем государственного управления
Kipyatkova I., Karpov A. A Comparison of RNN LM and FLM for Russian Speech Recognition. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2015. Vol. 9319. pp. 42-50.. doi: 10.1007/978-3-319-23132-7_5
Ronzhin A.L., Karpov A.A. A Software System for the Audiovisual Monitoring of an Intelligent Meeting Room in Support of Scientific and Education Activities. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2015. Vol. 25. No. 2. pp. 237–254.. doi: 10.1134/S1054661815020212
Карпов А.А., Верходанова В.О. Речевые технологии для малоресурсных языков мира [Speech technologies for under-resourced languages of the world]. Вопросы языкознания [Voprosy Jazykoznanija]. 2015. № 2. С. 117-135.
Karpov A. An Automatic Multimodal Speech Recognition System with Audio and Video Information. Automation and Remote Control. 2014. Vol. 75. No. 12. pp. 2190-2200.. doi: 10.1134/S000511791412008X
Kipyatkova I.S., Verkhodanova V.O., Karpov A. Rescoring N-Best Lists for Russian Speech Recognition using Factored Language Models. 4th Workshop on Spoken Language Technologies for Under-resourced languages, SLTU 2014. 2014. pp. 81-86.
Karpov A., Ronzhin A. A Universal Assistive Technology with Multimodal Input and Multimedia Output Interfaces. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2014. Vol. 8513. pp. 369-378.. doi: 10.1007/978-3-319-07437-5_35
Karpov A. Audiovisual monitoring system of intelligent room for automated support of scientific and educational meetings. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2014. Vol. 24. No. ?. pp. 1-10.
Карпов А.А. Реализация автоматической системы многомодального распознавания речи по аудио- и видеоинформации. Автоматика и телемеханика. 2014. № 12. С. 125-138.
Karpov A.A., Akarun L., Yalcin H., Ronzhin A., Demiroz B., Coban A., Zelezny M. Audio-Visual Signal Processing in a Multimodal Assisted Living Environment. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2014. pp. 1023-1027.
Карпов А.А., Zelezny M. Двуязычная многомодальная система для аудиовизуального синтеза речи и жестового языка по тексту. Научно-технический вестник информационных технологий, механики и оптики [Scientific and Technical Journal of Information Technologies, Mechanics and Optics]. 2014. № 5(93). С. 92-98.
Kipyatkova I., Karpov A. Study of Morphological Factors of Factored Language Models for Russian ASR. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2014. Vol. 8773. No. LNAI. pp. 451-458.. doi: 10.1007/978-3-319-11581-8_56
Karpov A., Kipyatkova I., Zelezny M. A Framework for Recording Audio-Visual Speech Corpora with a Microphone and a High-Speed Camera. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2014. Vol. 8773. No. LNAI. pp. 50-57.. doi: 10.1007/978-3-319-11581-8_6
Российская Федерация
Чешская Республика
Российская Федерация, Санкт-Петербург
Российская Федерация, Санкт-Петербург
Российская Федерация, Санкт-Петербург
Греция, Афины
Германия, Дрезден
США, Лос-Анджелес