Тренинговым компаниям: Добавить тренингВойти
TRN.ua

Методологія CRISP-DM – класика, яка не застаріває

Методологія CRISP-DM – класика, яка не застаріває

Міжгалузевий стандартний процес обміну даними (Cross-Industry Standard Process for Data Mining) представляє собою добре структурований підхід до проектів з аналізу даних.

 Процедура CRISP-DM включає 6 кроків плюс дані, які пов’язані між собою ітеративним процесом.

Розуміння бізнесу – на цьому етапі визначте результати проекту, оцініть поточну ситуацію, складіть план проекту

Розуміння даних – опишіть і вивчіть дані, перевірте якість даних, бо часто з’ясовується, що дані неправильно або неповністю збережені в хмарі чи базі даних

Підготовка даних – виберіть дані, очистіть дані (замініть пропущені значення, видаліть нетипові спостереження тощо), об’єднайте декілька наборів даних та/або отримайте агреговані значення

Моделювання – оберіть техніку моделювання (регресія, нейронна мережа тощо), розділіть дані на набори даних для побудови моделей (набір train включає 75% даних для побудови моделей) і тестування (набір test включає 25% даних для вибору найкращої моделі або ансамблю моделей), побудуйте модель, оцініть ефективність моделі

Оцінювання – оцінка результатів (на нових даних протягом 2-3 місяців), перегляд та затвердження моделей

Деплоймент (розгортання) – результати моделей стають частиною щоденної ділової активності

Діаграма процесу підкреслює той факт, що ітерація – це радше правило, а не виняток. Іншими словами, один раз пройти процес, не вирішивши проблему, є нормою. Наприклад, на етапі моделювання може з’ясуватися, що бракує розуміння певного аспекту бізнесу, який доцільно обговорити з власником процесу або іншим ключовим стейкхолдером.

Багато експертів зі Штучного Інтелекту (ШІ) вважають, що стандарт CRISP-DM (винайдений наприкінці 1990-х років) застарілий в сучасному світі ШІ, наприклад послідовність кроків може бути іншою, або взагалі всі кроки можуть виконуватися майже одночасно. Але, схоже, що загально прийнятої альтернативи наразі немає.

На думку експерта Білла Ворхіеса, хоча наука даних і перейшла за межі прогнозного моделювання та рекомендацій, навіть сучасні нелінійні проекти все одно починаються з розуміння бізнесу, починаються з даних, які необхідно зібрати, дослідити та певним чином підготувати. Потім ці проекти застосовують набір алгоритмів науки даних до проблеми і потребують оцінки їх здатності до узагальнення в реальному світі. Тому на думку Білла Ворхіеса CRISP-DM надає чіткі вказівки навіть для найсучаснішої сьогоднішньої діяльності з інформатики.

Блог Максима Обрізана: https://obrizan.org/blog/

Автор: Обризан Максим
Компания: Development Training & Consulting (все статьи компании)
Добавить комментарий
Ваше имя, компания:
Комментарий:
не более 1000 символов (введено: 0)
Эл. почта:
 или Отменить
См. также
Цікаві факти з історії СІМА, які переклали українською наш надійний Партнер - Академія БДО!, CIMA Україна
Огляд бюджету та витрат США, CIMA Україна
Ценность себя, Академия формирования личности. Система акад. Миание М.Ю.
Будь хорошей девочкой, Академия формирования личности. Система акад. Миание М.Ю.
Підписано угоду між Асоціацією міжнародних сертифікованих професійних бухгалтерів AICPA&CIMA та MGI PSP Audit, CIMA Україна
Перейти к списку всех статей
TRN.ua
Главная страница
Обратная связь
Помощь
Тренинговым компаниям
Тренинги и семинары
Тренинговые компании
Тренеры
Новости
Статьи
Услуги сайта
Статистика сайта
О проекте
Контакты
Условия использования
© TRN.ua — тренинги в Украине.
Сделано в компании «Реактор».