В этой статье я бы хотел бы поделиться своим первым опытом работы в компании на должности практиканта в секторе интегрированного моделирования и управления потенциалом в одной нефтегазодобывающей компании. А ещё эта статья является моим отчётом о производственной практике в ВУЗе.

В первые дни, проведённые в офисе, я ощутил всю прелесть онбординга в нефтянку. Тогда для меня каждое второе слово от коллег являлось новым и приходилось жёстко гуглить. УЭЦН, ПЭД, МРП, КВЧ, загрузка, НГДП, кусты, ВНР... Мне казалось, я попал в параллельную вселенную, где говорят на странном техническом диалекте. Мой наставник, видя мои широко открытые глаза только улыбался и говорил: «Ничего, через неделю всё поймёшь. Главное выучи, что такое VLP и IPR».
Моей задачей на практике был не какой-то абстрактный «анализ данных», а совершенно конкретная и осязаемая проблема: поломка насоса нефтескважины. Представьте: большой и дорогой погружной насос на глубине в 2-3 километра внезапно выходит из строя. Скважина встаёт. Нефть не течёт. Команда ремонтников срочно выезжает на месторождение, начинает поднимать эту колонну труб. Операция, которая длится не одни сутки и стоит безумных денег. А ведь можно было бы предсказать поломку погружного оборудования и обойтись без ненужных трат...
Задача была сформулирована просто и гениально: «Можно ли по данным телеметрии понять, что насос вот-вот сломается, и предсказать, когда именно это случится?» Именно этим вопросом была занята моя голова на протяжении одного месяца.
От проблемы к данным
Прежде чем начинать играть в ML, необходимо выиграть в сбор и разведку данных. Как и предполагалось, данные телеметрии были разбросаны по разным таблицам и обычный
SELECT * from ... LIMIT 10
превращался в многоэтажный запрос с бесконечными JOIN-ами. Спасало лишь то, что уже был готовый текст запроса, сделанный штатным сотрудником очень давно.
После нескольких часов работы кода на PowerShell мы наконец-то получаем .csv файл с не очень привлекательным форматом. Далле предстояла страшная битва в распределение данных по листам Excel (да, этот формат оказался удобнее), обработку пропусков, фильтрацию, борьбу с выбросами, создание новых признаков.
Принести EDA с собой или уйти на обед
Перед тем, как показывать красивые графики и делать по ним «умные выводы», расскажу немного про те признаки, с которыми приходилось работать.
Забойное давление и давление на приёме
Дебит жидкости, нефти и газа
Обводнённость
Газовый фактор
Количество взвешенных частиц
Сила тока и загрузка оборудования
Температура двигателя
Дисбаланс тока и сопротивление изоляции
После того, как были отобраны скважины, которые имели остановку по причине отказа УЭЦН, картина приобрела более четкие очертания. Анализ выявил интересные технологические зависимости, хотя не все признаки демонстрировали явную закономерность с течением времени или сильную корреляцию между собой.
Наиболее яркая и предсказуемая взаимосвязь наблюдалась между дебитом газа и давлением на приеме насоса. Как видно на графике, с ростом объема поступающего газа, увеличивается и давление. Эта зависимость четко разделяется на три кластера: основная масса скважин работает в области умеренных давлений и газосодержания, выделяется группа скважин с низким давлением и отдельный кластер высокогазовых скважин с повышенным давлением на приеме.
Логично, что скважина с высоким давлением на приеме демонстрирует и более высокие дебиты по жидкости и газу по сравнению с теми, у которых давление в несколько раз ниже. Однако именно анализ газа критически важен для прогнозирования отказов УЭЦН, так как газ оказывает существенное влияние на работу насосного оборудования.

Матрица корреляций показала слабые и противоречивые зависимости между параметрами. Критически важные для диагностики показателями являются дисбаланс тока и сопротивление изоляции. Они показали крайне слабые корреляции с другими переменными (-0.03 ÷ -0.30). Это удивительно, поскольку именно они традиционно считаются ключевыми индикаторами скорого отказа.

Ситуация усугубляется анализом графиков динамики сопротивления изоляции. Ни на одной из кривых не прослеживается универсальный паттерн, где перед отказом значение параметра уверенно стремится к нулю. В одних случаях наблюдается плавное снижение за несколько недель, в других резкий обрыв за день-два, а в третьих — стабильные значения вплоть до поломки.

И как теперь продолжать исследование, когда практика расходится с теорией?
Когда я провел этот анализ, я понял, что не существует единного "золотого" параметра для прогнозирования. Отказ — это результат комбинации факторов, а каждый отказ стоит рассматривать, как отдельный случай.
Ну как там с моделью?
Этап, который ждал я, мой наставник, весь офис и, надеюсь, Вы. Здесь то данные должны превратиться в предсказание будущего и сэкономить компании миллионы. Но волшебной палочки не будет.
В качестве целевой переменной выбрали конкретное число — максимальный межремонтный период. Далее это число преобразовывалось в дату отказа скважины.
На старте мы запустили классический набор джентельмена, состоящий из того, что проходили на парах по Data Science: RandomForest, GradientBoosting, DecisionTree, CatBoost. Результаты были предсказуемы: ансамбли справились лучше линейной модели, но их точность — ошибка в 30-40 суток всё ещё оставляла желать лучшего. Стало ясно, что данные с их слабыми корреляциями и зашумленностью требуют более гибкого и мощного инструмента.
Подобрав гиперпараметры для CatBoost метрика RMSE показала значение в 21 дней. Самый лучший результат, который мы получили.
Предсказываем будущее
Когда мы начали делать предсказания на новых данных, которые не участвовали в выборке, картина резко изменилась. Реальная погрешность на некоторых скважинах могла достигать более 21 дня, что сводило на нет всю практическую пользу. По сути, получился рандомайзер. С такой же точностью мог предсказывать и обычный человек, сказав что скважина откажет через год-два (гарантийный срок экплуатации УЭЦН).
Почему так произошло? Ошибка крылась в фундаментальном подходе. Мы предсказывали отказ, усредняя прогноз по нескольким последним замерам параметров скважины, рассматривая их как изолированные точки. Но работа УЭЦН — это временной ряд, где важна не только величина параметра, но и его динамика, тренд и скорость изменения. Осознали мы это в самом конце, когда нужно было рассказывать начальнику, чем мы тут занимаемся.
Чтобы красиво оформить проделанную работу было разработано приложение на TKinter. Можно было бы и сделать веб-версию, но времени уже не оставалось.
Выводы
Предсказание срока жизни насоса на основе одного «фото» за день — всё равно что прогнозировать, когда закончится бензин в машине, глядя только на текущий уровень в баке, игнорируя стиль вождения и крутизну подъёма впереди. Нам же нужно было анализировать «видео» — последовательность кадров, чтобы увидеть, как параметры ухудшаются с течением времени.

Но ничего, на ошибках учатся. Это исследование показало, что чистота данных и понимание протекающих процессов — всего часть от успешной предиктивной аналитики. Для надёжного прогноза отказа необходимо использовать методы, предназначенные специально для работы с временными рядами. Это и стало главным выводом и вектором для дальнейшего развития моих профессиональных навыков в этой сфере.
neznayuktoya
После прочтения рождается вопрос.
А автор делал какую то модель для автоматизации при уже существующем методе выявления проблемы на раннем этапе или нефтегазовая компания настолько классное место что у них нет специального отдела/человека который этим занимается экономя сотни миллионов/миллиарды в год и они решили что просто притащить практикантов бесплатно отличная идея?
nikoussr Автор
В компании реализвана система, где сотрудники предлагают идеи по улучшению каких-либо процессов. Подобный кейс как раз таки и был предложен одним из сотрудников. Само собой, в секторе интегрированного моделирования и управления потенциалом уже давно используются инструменты предиктивной аналитики с помощью цифровых двойников месторождений (и скважин, конечно же). А та работа, которой занимался я, предназначена для студентов, которые хотят закрыть производственную практику не очередным сайтиком на html, css, а чем-то более приближенным к реальным задачам. Очевидно, что миллионы и миллиарды экономят не команда из 4 человек.
Надеюсь, я ответил на ваш вопрос)