Скачать PDF
Исследование методов семплирования обучающих данных в задаче прогнозирования~сепсиса
Глушков В. С.1, Караваев З. А.2, Миляев М. В.3, Ермаков Н. В.4
1.1Тюменский государственный медицинский университет Минздрава России, г.~Тюмень,~Россия;
Дата поступления
2024.11.19
Аннотация. {Проводится сравнение эффективности методов оверсемплинга (oversampling) и андерсемплинга (undersampling) данных для задачи раннего прогнозирования развития сепсиса с помощью двух моделей машинного обучения. Рассматриваются широко используемые методы оверсемплинга (SMOTE, Borderline SMOTE, ADASYN) и андерсемплинга (случайный андерсемплинг, метод, основанный на вычислении центроидов классов, и метод Near Miss). Эксперименты проводятся на датасете Prediction of Sepsis, включающем в себя различные показатели здоровья пациентов. Результаты экспериментов показали, что в большинстве случаев рассмотренные методы семплинга данных позволяют улучшить значения метрик для оценки бинарной классификации. При этом наиболее высокие значения F-меры, точности и полноты были получены с использованием методов андерсемплинга.
Ключевые слова
несбалансированность обучающей выборки, оверсемплинг, андерсемплинг, семплирование медицинских данных, прогнозирование сепсиса, нейронные сети, машинное обучение

Библиография
\bibitem{homyakova} \textit{Хомякова Т. И., Бабаев М. А., Пономаренко Е. А., Хомяков Ю. Н.} Биомаркеры повреждения эндотелия и их роль в прогнозировании развития сепсиса и септического шока~// Молекулярная медицина. --~2024. --~№~1. --~С.~21–28. \bibitem{ostroumova} \textit{Остроумова Ю. С., Батыршин И. М., Насер Н. Р., Склизков Д. С., Рязанова Е. П., Бородина М. А., Шляпников С. А.} Шкальные системы прогнозирования течения и исхода перитонита и абдоминального сепсиса~// Вестник Дагестанской государственной медицинской академии. --~2019. --~№.~4. --~С.~64--71. \bibitem{vrach} \textit{Романюк Т. И., Поздняков Д. Ю., Мушенок Ф. Б.} Использование возможностей машинного обучения и искусственного интеллекта в отделениях анестезиологии и реанимации~// Врач и информационные технологии. --~2021. --~№~2. --~С. 60--71. \bibitem{levch} \textit{Левчегов О. Н.} Системы искусственного интеллекта в здравоохранении: текущее состояние, проблемы и перспективы // ЭФО: Экономика. Финансы. Общество. --~2023. --~№.~4~(8). --~С.~52--71. \bibitem{evr} \textit{Кузьмин Е. А., Качальский В. Г.} Применение процесса Гаусса и классификатора нейронной сети в задаче предсказывания сепсиса у пациентов // Евразийский Союз Ученых. --~2020. --~№.~5-3~(74). --~С.~35--38. \bibitem{kumar} \textit{Kumar P., Bhatnagar R., Gaur K., Bhatnagar A.} Classification of imbalanced data: review of methods and applications // IOP conference series: materials science and engineering. IOP Publishing. --~2021. --~Vol.~1099. --~N.~1. --~P.~012077. \bibitem{carchal} \textit{Reyna M. A. et al.} Early prediction of sepsis from clinical data: the PhysioNet Computing in Cardiology Challenge 2019 // Critical care medicine. --~2020. --~Vol.~48. --~N.~2. --~P.~210--217. \bibitem{pedregosa} \textit{Pedregosa F. et al.} Scikit-learn: Machine learning in Python // The Journal of machine Learning research. --~2011. --~N.~12. --~P.~2825--2830. \bibitem{smote} \textit{Chawla N. V., Bowyer K. W., Hall L. O., Kegelmeyer W. P.} SMOTE: synthetic minority over-sampling technique // Journal of artificial intelligence research. --~2002. --~Vol.~16. --~P.~321--357. \bibitem{bsmote} \textit{Han H., Wang W. Y., Mao B. H.} Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning // International conference on intelligent computing. --~2005. --~P.~878--887. \bibitem{adasyn} \textit{He H., Bai Y., Garcia E. A., Li S.} ADASYN: Adaptive synthetic sampling approach for imbalanced learning // 2008 IEEE international joint conference on neural networks (IEEE world congress on computational intelligence). --~2008. --~P.~1322--1328. \bibitem{cc} \textit{Lin W. C., Tsai C. F., Hu Y. H., Jhang J. S.} Clustering-based undersampling in class-imbalanced data // Information Sciences. --~2017. --~N.~409. --~P.~17--26. \bibitem{nm} \textit{Mani I., Zhang I.} kNN approach to unbalanced data distributions: a case study involving information extraction // Proceedings of workshop on learning from imbalanced datasets. --~2003. --~Vol.~126. --~N.~1. --~P.~1--7. \bibitem{imb} \textit{Lemaitre G., Nogueira F., Aridas C. K.} Imbalanced-learn: A Python toolbox to tackle the curse of imbalanced datasets in machine learning // Journal of machine learning research. --~2017. --~Vol.~18. --~N.~17. --~С.~1--5. \bibitem{rf1} \textit{Lyra S., Leonhardt S., Antink C. H.} Early prediction of sepsis using random forest classification for imbalanced clinical data // 2019 Computing in Cardiology (CinC). --~2019. --~P.~1--4. \bibitem{rf2} \textit{Mahmud F., Pathan N. S., Quamruzzaman M.} Early detection of Sepsis in critical patients using Random Forest Classifier // 2020 IEEE Region 10 Symposium (TENSYMP). --~2020. --~P.~130--133. \bibitem{mlp} \textit{Dou Y., Li W., Zomaya A. Y.} Transformer-based unsupervised learning for early detection of sepsis (student abstract) // Proceedings of the AAAI Conference on Artificial Intelligence. --~2022. --~Vol.~36. --~N.~11. --~P.~12937--12938. \bibitem{keras} \textit{Chollet F. et al.} Keras: The Python deep learning library // Astrophysics source code library. --~2018. --~P.~ascl: 1806.022.

Сведения о финансировании и благодарности
Exploring Methods of Sampling Training Data for~Sepsis~Prediction
Glushkov V. S.1, Karavaev Z. A.2, Milyaev M. V.3, Ermakov N. V.4
1.1Tyumen State Medical University, Tyumen, Russia;
Received
2024.11.19
Abstract. This study compares the effectiveness of data oversampling and undersampling methods for the task of early sepsis prediction using two machine learning models. The analysis includes widely used oversampling methods (SMOTE, Borderline SMOTE, ADASYN) and undersampling methods (random undersampling, the Class Centroids methods, and the Near Miss method). Experiments are conducted on the Prediction of Sepsis dataset, which includes various patient health indicators. The results of the experiments showed that, in most cases, the considered sampling methods improve the performance metrics for binary classification evaluation. The highest values of F1-score, precision, and recall were achieved using undersampling methods.
Keywords
class imbalance, oversampling, undersampling, medical data sampling, sepsis prediction, neural networks, machine learning

References
\bibitem{homyakova} \textit{Хомякова Т. И., Бабаев М. А., Пономаренко Е. А., Хомяков Ю. Н.} Биомаркеры повреждения эндотелия и их роль в прогнозировании развития сепсиса и септического шока~// Молекулярная медицина. --~2024. --~№~1. --~С.~21–28. \bibitem{ostroumova} \textit{Остроумова Ю. С., Батыршин И. М., Насер Н. Р., Склизков Д. С., Рязанова Е. П., Бородина М. А., Шляпников С. А.} Шкальные системы прогнозирования течения и исхода перитонита и абдоминального сепсиса~// Вестник Дагестанской государственной медицинской академии. --~2019. --~№.~4. --~С.~64--71. \bibitem{vrach} \textit{Романюк Т. И., Поздняков Д. Ю., Мушенок Ф. Б.} Использование возможностей машинного обучения и искусственного интеллекта в отделениях анестезиологии и реанимации~// Врач и информационные технологии. --~2021. --~№~2. --~С. 60--71. \bibitem{levch} \textit{Левчегов О. Н.} Системы искусственного интеллекта в здравоохранении: текущее состояние, проблемы и перспективы // ЭФО: Экономика. Финансы. Общество. --~2023. --~№.~4~(8). --~С.~52--71. \bibitem{evr} \textit{Кузьмин Е. А., Качальский В. Г.} Применение процесса Гаусса и классификатора нейронной сети в задаче предсказывания сепсиса у пациентов // Евразийский Союз Ученых. --~2020. --~№.~5-3~(74). --~С.~35--38. \bibitem{kumar} \textit{Kumar P., Bhatnagar R., Gaur K., Bhatnagar A.} Classification of imbalanced data: review of methods and applications // IOP conference series: materials science and engineering. IOP Publishing. --~2021. --~Vol.~1099. --~N.~1. --~P.~012077. \bibitem{carchal} \textit{Reyna M. A. et al.} Early prediction of sepsis from clinical data: the PhysioNet Computing in Cardiology Challenge 2019 // Critical care medicine. --~2020. --~Vol.~48. --~N.~2. --~P.~210--217. \bibitem{pedregosa} \textit{Pedregosa F. et al.} Scikit-learn: Machine learning in Python // The Journal of machine Learning research. --~2011. --~N.~12. --~P.~2825--2830. \bibitem{smote} \textit{Chawla N. V., Bowyer K. W., Hall L. O., Kegelmeyer W. P.} SMOTE: synthetic minority over-sampling technique // Journal of artificial intelligence research. --~2002. --~Vol.~16. --~P.~321--357. \bibitem{bsmote} \textit{Han H., Wang W. Y., Mao B. H.} Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning // International conference on intelligent computing. --~2005. --~P.~878--887. \bibitem{adasyn} \textit{He H., Bai Y., Garcia E. A., Li S.} ADASYN: Adaptive synthetic sampling approach for imbalanced learning // 2008 IEEE international joint conference on neural networks (IEEE world congress on computational intelligence). --~2008. --~P.~1322--1328. \bibitem{cc} \textit{Lin W. C., Tsai C. F., Hu Y. H., Jhang J. S.} Clustering-based undersampling in class-imbalanced data // Information Sciences. --~2017. --~N.~409. --~P.~17--26. \bibitem{nm} \textit{Mani I., Zhang I.} kNN approach to unbalanced data distributions: a case study involving information extraction // Proceedings of workshop on learning from imbalanced datasets. --~2003. --~Vol.~126. --~N.~1. --~P.~1--7. \bibitem{imb} \textit{Lemaitre G., Nogueira F., Aridas C. K.} Imbalanced-learn: A Python toolbox to tackle the curse of imbalanced datasets in machine learning // Journal of machine learning research. --~2017. --~Vol.~18. --~N.~17. --~С.~1--5. \bibitem{rf1} \textit{Lyra S., Leonhardt S., Antink C. H.} Early prediction of sepsis using random forest classification for imbalanced clinical data // 2019 Computing in Cardiology (CinC). --~2019. --~P.~1--4. \bibitem{rf2} \textit{Mahmud F., Pathan N. S., Quamruzzaman M.} Early detection of Sepsis in critical patients using Random Forest Classifier // 2020 IEEE Region 10 Symposium (TENSYMP). --~2020. --~P.~130--133. \bibitem{mlp} \textit{Dou Y., Li W., Zomaya A. Y.} Transformer-based unsupervised learning for early detection of sepsis (student abstract) // Proceedings of the AAAI Conference on Artificial Intelligence. --~2022. --~Vol.~36. --~N.~11. --~P.~12937--12938. \bibitem{keras} \textit{Chollet F. et al.} Keras: The Python deep learning library // Astrophysics source code library. --~2018. --~P.~ascl: 1806.022.

Acknowledgements
Сведения об авторах
Глушков В. С.
1.1. доцентТюменский государственный медицинский университет Минздрава России, г.~Тюмень,~Россия
Адрес для корреспонденции:

Караваев З. А.

Миляев М. В.

Ермаков Н. В.
About the authors
Glushkov V. S.
1.1. Associate ProfessorTyumen State Medical University, Tyumen, Russia
Postal address:

Karavaev Z. A.

Milyaev M. V.

Ermakov N. V.
Поиск
Свежий выпуск
Авторам