В MIT разработали систему автоматической очистки беспорядочных данных

Исследователи Массачусетского технологического института создали систему PClean, которая автоматически очищает «грязные» данные в таблицах: опечатки, дубликаты, пропущенные значения, орфографические ошибки и несоответствия.

Алгоритм использует подход, основанный на знаниях. Пользователь предоставляет ему основную информацию о базе данных и указывает основные проблемы, которые могут возникнуть в процессе очистки.

Затем программа объединяет эти знания с помощью вероятностных рассуждений, основанных на логике, и дает ответ. Например, учитывая дополнительные сведения о типичной арендной плате, PClean может дополнить таблицу со списком квартир и правильно определить Беверли-Хиллз из Калифорнии, а не аналогичный город, расположенный во Флориде или Техасе.

Соавтор статьи и аспирант кафедры электротехники и компьютерных наук Алекс Лью сказал, что PClean дает возможность заручиться поддержкой компьютеров так же, как люди обращаются за помощью друг к другу.

«PClean позволяет сообщить компьютеру, что я знаю о проблеме, кодируя те же базовые знания, которые я бы объяснил человеку. […] Я также могу указать подсказки и уловки, которые уже известны, для более быстрого решения задачи», — добавил исследователь.

Разработчики утверждают, что PClean — это первая система очистки данных, которая может сочетать знания в предметной области с логическими рассуждениями для автоматической очистки таблиц от миллионов записей за счет трех нововведений:

  • язык сценариев позволяет пользователям кодировать то, что они знают, для увеличения точности модели;
  • алгоритм вывода использует двухэтапный подход, основанный на обработке записей по очереди, чтобы сделать обоснованные предположения об их очистке, а затем пересмотреть свои суждения для исправления ошибок;
  • специальный компилятор генерирует код быстрого вывода, позволяя программе работать с базами данных с миллионами записей с высокой скоростью.

По словам исследователей, PClean упрощает и удешевляет объединение беспорядочных, несовместимых баз данных в чистые записи без огромных инвестиций в человеческие и программные системы.

Несмотря на потенциальные социальные преимущества, разработчики предупредили о рисках, в том числе вторжения в частную жизнь людей и их деанонимизации путем объединения неполной информации из нескольких общедоступных источников.

PClean доступен всем желающим. Исходный код системы разработчики опубликовали на GitHub.

Напомним, в мае ученые с помощью ИИ ускорили моделирование Вселенной в 1000 раз.

В апреле ученые из Университета Райса разработали метод обучения нейросетей на центральном процессоре, который работает в 15 раз быстрее, чем на графических ускорителях.

Источник: forklog.com

Оцените автора
( Пока оценок нет )
КриптоВики
Добавить комментарий