Какие есть инструменты для маскировки данных? (MySQL, Linux) [закрыто]


14

Я ищу (идеально бесплатный, с открытым исходным кодом) инструменты для маскировки данных. Есть ли такие?

Примечание: этот связанный вопрос касается инструментов для генерации тестовых данных, но в этом вопросе я больше заинтересован в том, чтобы начать с реальных данных и маскировать их для использования в тесте, не теряя при этом каких-либо особых отношений, которые делают его интересным для тестовых целей. Генерируемые данные хороши для некоторых целей тестирования, но реальные данные вызовут проблемы, о которых вы никогда не задумывались. Инструмент для генерации больших наборов тестовых данных.

Ответы:


9

Я был бы очень удивлен, если бы существовал общий инструмент для этого - как бы он «узнал», что такое конфиденциальные данные, а что нет? Например, необходимо проверить все ваши данные и распознать все возможные форматы номера кредитной карты, номера телефона, почтового индекса, адреса электронной почты и любых других данных, которые считаются конфиденциальными. Он также должен быть умным в отношении вашей схемы - например, если она переписывает все адреса электронной почты клиентов на "nobody@company.com" - или если какая-либо часть вашей базы данных, приложений, других инструментов предполагает, что адрес электронной почты клиента (или SSN или что угодно) уникален? Или у вас есть какая-то часть приложения, которая проверяет контрольные суммы номеров кредитных карт, которая сломалась бы, если вы сбросите их все на 0000 0000 0000 0000? Или ваша телефонная система предполагает, что клиент

По сути, настройка любого инструмента для его выполнения будет такой же или большей работой, чем просто написание собственного сценария с использованием ваших знаний о приложении. На моем сайте мы просто установили политику, согласно которой любой, кто добавляет столбец с такими данными, обновляет сценарий, чтобы анонимизировать его одновременно, после первоначального аудита, чтобы найти все эти столбцы и написать версию 1.


1
Я знаю, что есть коммерческие инструменты, так как на предыдущем рабочем месте была (неудачная) инициатива использовать один для наших баз данных Oracle. (Я не был связан с этим проектом, поэтому я не знаю причин неудачи. Я подозреваю, что настройка инструмента маскирования данных для устаревшей базы данных будет очень утомительной задачей, как вы предлагаете).
testerab

3
О, я ожидаю, что кто-то продаст вам что-то, что претендует на это, но, как я уже сказал, его настройка будет более трудоемкой, чем написание собственного на SQL, потому что сначала вам придется изучить их hokey DSL!
Гай

5

Если ваша база данных крошечная, имеет простую модель данных и хорошо понимается действующими администраторами баз данных - сценарий «может» является ответом. Однако усилия (и стоимость) по ручному анализу и маскировке типовых баз данных могут быстро выйти из-под контроля, когда требования изменяются, добавляются функциональные возможности и приходят и уходят разработчики / администраторы баз данных.

Хотя я не знаю ни о каких продуктах для маскировки данных с открытым исходным кодом, есть коммерческие предложения, которые являются достаточно полными, относительно простыми в использовании и могут быть удивительно разумными с точки зрения затрат. Многие из них включают в себя возможность обнаружения «из коробки» для идентификации и классификации конфиденциальных данных (SSN, кредитные карты, номера телефонов), а также функции для поддержания контрольных сумм, форматирования адресов электронной почты, группировки данных и т. Д., Чтобы маскировать данные выглядит и чувствует себя настоящим.

Но вы не должны принимать мое (по общему признанию) слово за это. Спросите отраслевых аналитиков, таких как Gartner или Forrester, у которых есть несколько объективных отчетов о маскировке, которые могут помочь.

Надеемся, что эти комментарии помогут вам изучить как коммерческие продукты, так и внутреннюю разработку сценариев. В конце концов, самое важное - защитить конфиденциальные данные, которые многие из нас видят изо дня в день, которые нам действительно не нужны, чтобы выполнять свою работу - ставить нас и людей, чьи личные данные мы держим в опасности.

Кевин Хиллиер, старший специалист по интеграции, Camouflage Software Inc.


1
Я понимаю, что вы не хотите, чтобы вы продавали свой собственный продукт, но было бы полезно, если бы вы могли назвать пару коммерческих продуктов или указать какой-то конкретный совет?
testerab

1
Я понимаю, что вы работаете в этой компании, и что вы, вероятно, хотите порекомендовать свой собственный продукт, и я не против этого, но из-за этого он выглядит как шикарная встроенная реклама, а не как "я знаю, о чем говорю" потому что это то, что я делаю "... я больше убежден" использовать бла-бла-бла (полное раскрытие: я работаю над этим продуктом), потому что бла-бла-бла "и не ставьте свое имя в конце. Если нам нужны ваши личные данные, мы можем щелкнуть по вашему специалисту, прочитать этот сигнал и щелкнуть ссылку там.
Jcolebrand

5

Никогда не видел такого предмета, но, поработав с несколькими наборами конфиденциальных данных в свое время, главное, что нужно зашифровать, - это личность людей или личная информация. Это должно появиться только в нескольких местах в базе данных.

Ваша операция маскирования должна сохранять статистические свойства и взаимосвязи данных и, вероятно, должна сохранять фактические ссылочные коды (или, по крайней мере, какой-то механизм управляемого перевода), чтобы вы могли согласовать их с фактическими данными.

Подобного можно добиться, получив отдельный список имен в полях и заменив его чем-то вроде FirstNameXXXX (где XXXX - порядковый номер, один для каждого отдельного значения). Номера кредитных карт и аналогичная информация, которая может быть использована для кражи личных данных, в среде разработки, скорее всего, не годится, но реальные вам нужны, только если вы тестируете системы обработки платежей - обычно продавец дает вам специальные коды для фиктивных счетов.

Написание процедур анонимизации такого рода не составляет особой сложности, но вам нужно будет точно договориться о том, что необходимо анонимизировать с бизнесом. При необходимости просмотрите базу данных поле за полем. Если вы спросите «да / нет», вы получите ложные срабатывания, которые вам не нужны. Попросите делового представителя объяснить, почему, или последствия или нормативные последствия не анонимизации конкретных данных.


3

У меня была такая же задача несколько недель назад. мы оценили некоторые программные системы, но большинство из них предназначены только для одного типа базы данных, например, oracle, и они часто очень сложны в использовании ... так что нет ничего лучше, чтобы это оценить. Это заняло у нас недели.

Мы решили купить профессиональную версию пакета для маскировки данных, так как она была наиболее простой в использовании. Он также имеет отличные возможности для маскировки данных, например, вы можете изменить адреса электронной почты на реальные, например ... @ siemens.com на mike.miller@seimsen.com.

Вы можете попробовать бесплатно около 500 (?) Записей, насколько я помню.

Вот ссылка http://www.data-masking-tool.com/


1
Просто точка данных: на момент написания статьи инструмент для маскировки данных стоит всего 1000 долларов.
Майкл Тепер

2

Мой способ сделать это:

  1. Создать новую базу данных с правами только просмотра и выбора для пользователей
  2. Сделать представления для таблиц, которые должны быть доступны для просмотра в других базах данных
  3. Маскировать столбцы, требующие маскирования: repeat ('*', char_length ( column to be masked))

2

Впервые я пошел по этому пути несколько лет назад и с тех пор создал консалтинговую компанию, основанную на этой практике.

Я предполагаю, что цель состоит в том, чтобы создать тестовые данные для использования в тестовых средах, где те, кто имеет доступ к данным, не имеют прав на просмотр производственной информации.

Прежде всего необходимо установить, какие именно элементы данных вам нужно маскировать, и для этого лучше всего начать с инструмента обнаружения данных, такого как Schema Spy (с открытым исходным кодом), и для этой задачи вам потребуется соответствующий драйвер jdbc, но он это очень полезный шаг в этом процессе.

Talend Open Studio - один из лучших инструментов, которые я использовал в последние годы для выполнения некоторых функций ETL, и вы также сможете выполнять некоторые базовые практики маскирования, заменяя значения случайными или. Поиск / замена - для обеспечения согласованности - с использованием компонента карты.

Но если вы ищете реальный инструмент для маскировки данных, я не нашел подходящего инструмента с открытым исходным кодом. Если у вас очень скромный бюджет на инструменты, я бы предложил Data Masker, но вам нужно будет выполнить некоторые операции импорта и экспорта через MS SQL или Oracle, поскольку он подключается только через эти протоколы.

Посетите http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset для получения информации о маскировании данных, методологии маскирования данных, обнаружении данных и данных испытаний. управление. Есть также полезный блог на http://www.dataobfuscation.com.au


1

На рынке доступен инструмент Informatica, который называется Informatica ILM (TDM). Это использует PowerCenter в качестве основы для ETL и маскирует данные с различными доступными параметрами маскирования. Хотя вам нужен аналитик данных или МСП, который может понять, как данные должны быть замаскированы. Сам инструмент не предоставляет информацию о том, какие поля должны быть замаскированы, однако существует внутренний алгоритм или процедура или процесс для идентификации чувствительных полей данных, таких как Имя, столбцы идентификаторов с номером, Кредитная карта, номер SSN, Номер счета и т. Д.


Также Informatica ILM TDM позволяет генерировать подмножество данных. Таким образом, вы можете установить подмножество данных и замаскировать их или замаскировать все данные, а затем установить их в соответствии с потребностями бизнеса.
Авадеш Йона,

1

В этом году у меня есть возможность работать с IBM Optim, который утверждает, что делает то, о чем просят. Это не бесплатно, но работает нормально.


1

Больше всего мне нравится IRI FieldShield ( https://www.iri.com/products/fieldshield ) с точки зрения универсальности (большинство функций маскирования данных), скорости (механизм CoSort для перемещения данных внутри) и эргономики (простые задания 4GL). поддерживается в его Eclipse GUI с тоннами соединений с БД и файлами). По цене это примерно половина IBM и Informatica, хотя она также доступна в более широком пакете интеграции данных для преобразования «больших» данных, миграции и бизнес-аналитики. Так что это тоже не бесплатно, но использует некоторый открытый исходный код (IDE, и может использовать OpenSSL и GPG), и сценарии работают на Windows, Linux и других разновидностях Unix.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.