Привязка аналитических сигналов в форме пиков на вольтамперных кривых к необходимым химическим элементам является ключевой задачей при автоматической обработке вольтамперных кривых. Например, при учёте линии остаточного тока под пиком [2, 3] необходимо знать, какому именно химическому элементу он принадлежит. Также принадлежность пиков к химическим элементам актуальна в методах разделения перекрывающихся пиков [4].
Сложность поставленной задачи заключается в том, что полученные пики на вольтамперограмме могут дрейфовать случайным образом как относительно друг друга, так и относительно теоретических электрохимических потенциалов химических элементов.
Целью статьи является разработка методов и алгоритмов привязки пиков вольтамперограммы к конкретным химическим элементам, основанных на объединении пиков отдельных серий вольтамперограмм в кластеры и дальнейшей привязки кластеров к соответствующим химическим элементам (идентификация кластеров).
На рис. 1 показана типичная картина вольтамперных кривых, полученная при определении массовых концентраций Zn, Cd, Pb, Cu в реальных пробах питьевой воды по методике [5].
На рисунке изображены три серии вольтамперных кривых, характеризующие (снизу вверх) фон, пробу и пробу с добавкой (в каждой серии по 5-9 кривых). На каждой кривой маркерами обозначены максимумы пиков, которые объединены в кластеры (обозначены прямоугольниками).
Вертикальными пунктирными линиями обозначены теоретические потенциалы определяемых химических элементов. Сплошные линии показывают связь кластеров с химическими элементами.
Рис. 1. Серия вольтамперограмм фона, пробы и пробы с добавкой, с привязкой пиков к химическим элементам
При анализе проб аналитик вручную выставляет соответствие пика и химического элемента, что сказывается на времени анализа. Сложность автоматизации привязки пиков к химическим элементам заключается во множестве факторов, участвующих в процессе анализа:
- пики вольтамперограмм находятся не строго друг под другом, а дрейфуют на небольшом участке. Такое поведение вызвано как химическими процессами, так и особенностями электронной части анализатора. Размах дрейфа не превышает заданную величину, которая для конкретного вольтамперометрического анализатора постоянна. Обозначим этот размах как Hd;
- вольтамперограммы могут иметь ложные пики (на рис. 1 эти пики обозначены кластерами, не связанными с химическими элементами). Ложные пики образуются за счёт помех, которые могут иметь различный частотный характер и по виду напоминать пик.
Также максимумы пиков в сериях могут быть смещены от теоретического положения химических элементов (на рис. 1 пики в сериях соединены сплошной линией с теоретическими расположениями элементов, обозначенных пунктирной линией). Вклад в смещение обычно даёт потенциал хлоридсеребряного электрода, дрейф которого не должен превышать 100 мВ. Обозначим максимальное смещение пиков как Hs.
Решение задачи автоматизации привязки пиков к химическим элементам состоит из двух этапов:
- кластеризация пиков;
- идентификация кластеров.
Под кластеризацией подразумевается объединение пиков в кластеры (группы) по степени их близости друг к другу для каждой серии кривых фона, пробы и пробы с добавкой.
Идентификация – это привязка кластеров к химическим элементам.
На рис. 2 показан схематичный пример найденных пиков у серии из 5 вольтамперограмм (обозначены точками). Жирной линией обозначена усреднённая вольтамперограмма.
Найденные пики условно сгруппированы в кластеры (обозначенные прямоугольниками) со своим номером.
Рис. 2. Усреднённая вольтамперная кривая с кластерами пиков
Через Hs1 обозначен дрейф первого кластера относительно электрохимического потенциала Zn, а через Hd1 обозначен размах пиков внутри первого кластера. В общем случае необходимыми условиями для привязки кластера к химическому элементу являются:
Если для какого-либо кластера не выполняется одно из этих условий, то кластер считается ложным.
Кластеризация пиков
Для кластеризации пиков необходимо проанализировать их потенциалы по признаку отдалённости друг от друга. На сегодняшний день существует множество алгоритмов кластерного анализа [1]. Все они являются итерационными и рассчитаны для многомерных систем.
В нашем случае мы имеем всего одну размерность и явно сгруппированные элементы пиков, что позволяет существенно упростить алгоритм. Разделение на кластеры осуществляется в два этапа:
- построение дендрограммы [1];
- поиск кластеров в дендрограмме.
Построение дендрограммы осуществляется по данным потенциалов центров пиков для каждой серии вольтамперограмм. Пространством признаков будут являться центры пиков, а количество уровней дендрограммы (число шагов слияния) определяется параметром Hd. Слияние происходит до того момента, пока разница между сливаемыми элементами будет меньше Hd.
На рис. 3 показана дендрограмма пиков графика с рис. 2 с обозначением кластеров (c1 … c5).
Рис. 3. Дендрограмма центров пиков
Для устранения ложных кластеров необходимо проверить условия:
, (1)
где Wci – ширина кластера i, Nci – число элементов в кластере i, n – число вольтамперограмм в серии (в данном примере их 5).
Параметр Nci может колебаться от 1 до n. Если Nc < n, то либо имеют место «выпавшие» вольтамперограммы (искаженные, сильно зашумлённые и т. д. вследствие внешних факторов), либо пики настолько малы, что у некоторых вольтамперограмм в серии они отсутствуют (имеет место для вольтамперограмм фона). В обоих случаях число таких пиков невелико (если анализатор исправен и эксперимент выполняется в соответствии с методикой) и обычно не превышает одного-двух.
В таблице показаны значения признаков для каждого из кластеров (рис. 3). Из таблицы видно, что условиям удовлетворяют только кластеры c2 и c4 (тёмные области соответствуют неудовлетворительным условиям).
Значения признаков для изолированных областей гистограммы
Признак / кластер |
с1 |
с2 |
с3 |
с4 |
с5 |
Wс |
- |
- |
x |
- |
x |
Nс |
2 |
5 |
5 |
5 |
4 |
Для методики [5] и анализатора ТА-07 производства ООО «НПЦ Техноаналит», г. Томск, Hd = 30 мкВ.
Идентификация кластеров
Полученные на предыдущем шаге кластеры необходимо привязать к соответствующим химическим элементам (в дальнейшем, к шаблону). В общем случае:
- число кластеров может быть как больше, так и меньше числа элементов в шаблоне;
- кластеры могут быть смещены относительно элементов шаблона (см. параметр Hsi).
Идентификация кластеров проводится путём формирования двух матриц (рис. 7):
- матрица соседей;
- матрица сходства.
На рис. 4 для примера формирования матриц изображён вариант элементов шаблона (кружки) и кластеров (линии).
Рис. 4. Пример расположения кластеров и элементов шаблона
Матрица соседей определяет расстояние L от кластера до ближайших соседних элементов шаблона (рис. 5).
Причём из матрицы соседей должны быть исключены строки, в которых расстояние L превышает величину Hs. Таким образом, остаются только те связи, которые удовлетворяют дрейфу хлоридсеребряного электрода. Как уже было сказано, значение параметра Hs находится в окрестности 100 мВ. Занижение этого параметра приведёт к исключению «хороших» пиков, что может привести к увеличению погрешности расчёта концентрации, а завышение параметра приведёт к неустойчивости модели и, соответственно, неверной привязке пиков к химическим элементам.
Рис. 5. Демонстрация построения матрицы соседей
В матрице соседей могут содержаться варианты, когда один элемент шаблона присвоен двум кластерам (например, P1 ссылается на C1 и C2) и/или когда один кластер ссылается на два шаблона (например, С2 ссылается на P1 и P2).
Для исключения таких ситуаций необходимо преобразовать матрицу соседей к матрице соответствий. Для этого необходимо пересчитать столбец L:
где, Lm – медиана столбца L. Далее необходимо удалить строки дублирующихся элементов шаблона и кластеров с максимальным значением Li.
Медиана в данном случае определяет тенденцию к похожему смещению всех элементов относительно шаблона. Такой выбор критерия удаления дублирующихся элементов связан с тем, что основной вклад в смещение пиков вольтамперограмм даёт хлоридсеребряный электрод, который не меняется в процессе всего эксперимента, что приводит к примерно одинаковому смещению пиков для всех серий.
После применения алгоритма для рис. 6 останутся связи (рис. 4):
С1 → P1, С3 → P2, С4 → P3, С5 → P4.
Рис. 6. Демонстрация матрицы соответствий
Кластеры С2 и С6 будут ложными (на рис. 10 выделены серым цветом).
Отдельно выделим случай, когда присутствует один кластер либо один элемент в шаблоне. Тогда привязка идёт по минимальному расстоянию либо от кластера, либо от шаблона соответственно без построения матриц.
Выводы
Разработанный способ на основе алгоритмов кластеризации и матрицы соответствий позволяет осуществить привязку пиков вольтамперограмм к химическим элементам, что является ключевой задачей при автоматической обработке вольтамперных кривых.
Алгоритм устойчив к дрейфу центров пиков как относительно друг друга, так и относительно электрохимических потенциалов определяемых элементов.
Входным данным алгоритма служат всего два параметра Hd и Hs, несущих физический смысл и являющихся константами для конкретной линейки анализаторов.
Предложенный способ идентификации является универсальным алгоритмом привязки массива кластеров к массиву шаблонов и может применяться в любой другой области с одномерным распределением данных.
Рецензенты:
Сечин А.И., д.т.н., профессор, Федеральное агентство по образованию, НИУ РЭТ Томский политехнический университет, г. Томск;
Гольдштейн А.Е., д.т.н., профессор, заведующий кафедрой информационно-измерительной техники Томского Политехнического Университета, г. Томск.
Работа поступила в редакцию 24.06.2014.