Предиктивная аналитика в нефтедобыче или как я проходил практику / forpes.ru

Главная
Предиктивная аналитика в нефтедобыче или как я проходил практику

Предиктивная аналитика в нефтедобыче или как я проходил практику +7

12.09.2025 06:12

nikoussr 5 1000 Источник

В этой статье я бы хотел бы поделиться своим первым опытом работы в компании на должности практиканта в секторе интегрированного моделирования и управления потенциалом в одной нефтегазодобывающей компании. А ещё эта статья является моим отчётом о производственной практике в ВУЗе.

В первые дни, проведённые в офисе, я ощутил всю прелесть онбординга в нефтянку. Тогда для меня каждое второе слово от коллег являлось новым и приходилось жёстко гуглить. УЭЦН, ПЭД, МРП, КВЧ, загрузка, НГДП, кусты, ВНР... Мне казалось, я попал в параллельную вселенную, где говорят на странном техническом диалекте. Мой наставник, видя мои широко открытые глаза только улыбался и говорил: «Ничего, через неделю всё поймёшь. Главное выучи, что такое VLP и IPR».

Моей задачей на практике был не какой-то абстрактный «анализ данных», а совершенно конкретная и осязаемая проблема: поломка насоса нефтескважины. Представьте: большой и дорогой погружной насос на глубине в 2-3 километра внезапно выходит из строя. Скважина встаёт. Нефть не течёт. Команда ремонтников срочно выезжает на месторождение, начинает поднимать эту колонну труб. Операция, которая длится не одни сутки и стоит безумных денег. А ведь можно было бы предсказать поломку погружного оборудования и обойтись без ненужных трат...

Задача была сформулирована просто и гениально: «Можно ли по данным телеметрии понять, что насос вот-вот сломается, и предсказать, когда именно это случится?» Именно этим вопросом была занята моя голова на протяжении одного месяца.

От проблемы к данным

Прежде чем начинать играть в ML, необходимо выиграть в сбор и разведку данных. Как и предполагалось, данные телеметрии были разбросаны по разным таблицам и обычный

SELECT * from ... LIMIT 10

превращался в многоэтажный запрос с бесконечными JOIN-ами. Спасало лишь то, что уже был готовый текст запроса, сделанный штатным сотрудником очень давно.

После нескольких часов работы кода на PowerShell мы наконец-то получаем .csv файл с не очень привлекательным форматом. Далле предстояла страшная битва в распределение данных по листам Excel (да, этот формат оказался удобнее), обработку пропусков, фильтрацию, борьбу с выбросами, создание новых признаков.

Принести EDA с собой или уйти на обед

Перед тем, как показывать красивые графики и делать по ним «умные выводы», расскажу немного про те признаки, с которыми приходилось работать.

Забойное давление и давление на приёме
Дебит жидкости, нефти и газа
Обводнённость
Газовый фактор
Количество взвешенных частиц
Сила тока и загрузка оборудования
Температура двигателя
Дисбаланс тока и сопротивление изоляции

После того, как были отобраны скважины, которые имели остановку по причине отказа УЭЦН, картина приобрела более четкие очертания. Анализ выявил интересные технологические зависимости, хотя не все признаки демонстрировали явную закономерность с течением времени или сильную корреляцию между собой.

Наиболее яркая и предсказуемая взаимосвязь наблюдалась между дебитом газа и давлением на приеме насоса. Как видно на графике, с ростом объема поступающего газа, увеличивается и давление. Эта зависимость четко разделяется на три кластера: основная масса скважин работает в области умеренных давлений и газосодержания, выделяется группа скважин с низким давлением и отдельный кластер высокогазовых скважин с повышенным давлением на приеме.

Логично, что скважина с высоким давлением на приеме демонстрирует и более высокие дебиты по жидкости и газу по сравнению с теми, у которых давление в несколько раз ниже. Однако именно анализ газа критически важен для прогнозирования отказов УЭЦН, так как газ оказывает существенное влияние на работу насосного оборудования.

Зависимость дебита газа от давления на приеме насоса

Матрица корреляций показала слабые и противоречивые зависимости между параметрами. Критически важные для диагностики показателями являются дисбаланс тока и сопротивление изоляции. Они показали крайне слабые корреляции с другими переменными (-0.03 ÷ -0.30). Это удивительно, поскольку именно они традиционно считаются ключевыми индикаторами скорого отказа.

Ситуация усугубляется анализом графиков динамики сопротивления изоляции. Ни на одной из кривых не прослеживается универсальный паттерн, где перед отказом значение параметра уверенно стремится к нулю. В одних случаях наблюдается плавное снижение за несколько недель, в других резкий обрыв за день-два, а в третьих — стабильные значения вплоть до поломки.

Часть графиков, показывающие изменение сопротивление изоляции

И как теперь продолжать исследование, когда практика расходится с теорией?

Когда я провел этот анализ, я понял, что не существует единного "золотого" параметра для прогнозирования. Отказ — это результат комбинации факторов, а каждый отказ стоит рассматривать, как отдельный случай.

Ну как там с моделью?

Этап, который ждал я, мой наставник, весь офис и, надеюсь, Вы. Здесь то данные должны превратиться в предсказание будущего и сэкономить компании миллионы. Но волшебной палочки не будет.

В качестве целевой переменной выбрали конкретное число — максимальный межремонтный период. Далее это число преобразовывалось в дату отказа скважины.

На старте мы запустили классический набор джентельмена, состоящий из того, что проходили на парах по Data Science: RandomForest, GradientBoosting, DecisionTree, CatBoost. Результаты были предсказуемы: ансамбли справились лучше линейной модели, но их точность — ошибка в 30-40 суток всё ещё оставляла желать лучшего. Стало ясно, что данные с их слабыми корреляциями и зашумленностью требуют более гибкого и мощного инструмента.

Подобрав гиперпараметры для CatBoost метрика RMSE показала значение в 21 дней. Самый лучший результат, который мы получили.

Предсказываем будущее

Когда мы начали делать предсказания на новых данных, которые не участвовали в выборке, картина резко изменилась. Реальная погрешность на некоторых скважинах могла достигать более 21 дня, что сводило на нет всю практическую пользу. По сути, получился рандомайзер. С такой же точностью мог предсказывать и обычный человек, сказав что скважина откажет через год-два (гарантийный срок экплуатации УЭЦН).

Результаты предсказания. Выделенный столбец - разница между реальным и предсказанным. Столбец слева от выделенного - реальный МРП.

Почему так произошло? Ошибка крылась в фундаментальном подходе. Мы предсказывали отказ, усредняя прогноз по нескольким последним замерам параметров скважины, рассматривая их как изолированные точки. Но работа УЭЦН — это временной ряд, где важна не только величина параметра, но и его динамика, тренд и скорость изменения. Осознали мы это в самом конце, когда нужно было рассказывать начальнику, чем мы тут занимаемся.

Чтобы красиво оформить проделанную работу было разработано приложение на TKinter. Можно было бы и сделать веб-версию, но времени уже не оставалось.

Выводы

Предсказание срока жизни насоса на основе одного «фото» за день — всё равно что прогнозировать, когда закончится бензин в машине, глядя только на текущий уровень в баке, игнорируя стиль вождения и крутизну подъёма впереди. Нам же нужно было анализировать «видео» — последовательность кадров, чтобы увидеть, как параметры ухудшаются с течением времени.

Надеюсь, что будущие практиканты не будут наступать на мои же грабли

Но ничего, на ошибках учатся. Это исследование показало, что чистота данных и понимание протекающих процессов — всего часть от успешной предиктивной аналитики. Для надёжного прогноза отказа необходимо использовать методы, предназначенные специально для работы с временными рядами. Это и стало главным выводом и вектором для дальнейшего развития моих профессиональных навыков в этой сфере.

Комментарии (5)

neznayuktoya
12.09.2025 06:52
#28827874
После прочтения рождается вопрос.
А автор делал какую то модель для автоматизации при уже существующем методе выявления проблемы на раннем этапе или нефтегазовая компания настолько классное место что у них нет специального отдела/человека который этим занимается экономя сотни миллионов/миллиарды в год и они решили что просто притащить практикантов бесплатно отличная идея?
1. nikoussr Автор
  12.09.2025 06:52
  #28828204
  В компании реализвана система, где сотрудники предлагают идеи по улучшению каких-либо процессов. Подобный кейс как раз таки и был предложен одним из сотрудников. Само собой, в секторе интегрированного моделирования и управления потенциалом уже давно используются инструменты предиктивной аналитики с помощью цифровых двойников месторождений (и скважин, конечно же). А та работа, которой занимался я, предназначена для студентов, которые хотят закрыть производственную практику не очередным сайтиком на html, css, а чем-то более приближенным к реальным задачам. Очевидно, что миллионы и миллиарды экономят не команда из 4 человек.
  Надеюсь, я ответил на ваш вопрос)

ChePeter
12.09.2025 06:52
#28829586
какой-то детский текст.

Насосы поставляются с гарантией производителя, который провел испытания ( в том числе и с применение матстата и прочих дата сайенсов) и установмл сроки и взял обязательства. Или у вас ширпротреб?

Вы исследуете насосы на гарантии или после гарантийного срока? Или в компании насос поставили и он работает пока не сломается ?

А если поломка по вашему прогнозу на межсезонье, когда на скважину только на вертолете, да и то не всегда ?

Или может поменять по плану, в удобное время, с учетом гарантийного срока?

Есть и другие параметры типа условий и нагрузок, которые устанавливает геолог специально обученный.

Например. Никто и нигде не тестирует НКТ никакими машин лернингами и прочими датасайенсами и ровно потому, что до срока гарантии ответственность на изготовителе, а после срока гарантии тюрьма, в случае аварии, мастеру.
1. nikoussr Автор
  12.09.2025 06:52
  #28830080
  Мисскликнул по кнопке) ответил комментарием ниже

nikoussr Автор
12.09.2025 06:52
#28830064
Вы абсолютно правы в том, что производители проводят испытания и дают гарантийные сроки. Однако моей задачей было работать не вопреки, а в дополнение к этим гарантиям.

Гарантийный срок - это расчётный показатель для лабораторных условий. Реальная же скважина - это уникальная среда с рядом агрессивных факторов. Мы исследовали оборудование как на гарантии, так и после её истечения, чтобы построить предиктивную модель, основанную не на теоретических допущениях, а на фактических данных.

Да, в межсезонье особенно остро обстоят дела с логистикой. Плановый ремонт, запланированный на основе данных, в удобное время и до наступления катастрофического отказа и был нашей целью. Это позволило бы избежать затрат на аварийный выезд ремонтной бригады и закупить заранее новое оборудование. На самом деле, я тоже сомевался в целесообразности заблаговременно останавливать скважину, ведь за то время пока она работает до её поломки, она могла бы выкачать сырьё, которые окупило бы все вышеперечисленные затраты.

Наша модель не заменила бы экспертный взгяд геолога, а стала бы для него инструментом поддержки принятия решений на основе исторических данных. Окончательное решение ою изменении режима или подготовке к ремонту, конечено же, остаётся за специалистом.

Спасибо, что задали такие вопросы. Не принимайте близко к сердцу мой непрофессионализм, попрошу учесть, что на исследование был заложен всего один студент и три недели рабочего времени)

Предиктивная аналитика в нефтедобыче или как я проходил практику +7

От проблемы к данным

Принести EDA с собой или уйти на обед

Ну как там с моделью?

Предсказываем будущее

Выводы

Комментарии (5)

neznayuktoya

nikoussr Автор

ChePeter

nikoussr Автор

nikoussr Автор