Начало работы с бикластером

9

Я проводил некоторые случайные интернет-исследования бикластеров. (Я читал статью в вики несколько раз.) Пока что кажется, что существует несколько определений или стандартной терминологии.

Мне было интересно, есть ли какие-нибудь стандартные документы или книги, которые должен прочитать любой, кто интересуется алгоритмами поиска бикластеров.
Можно ли сказать, каков уровень техники в этой области? Я был заинтригован идеей поиска бикластеров с использованием генетических алгоритмов, поэтому я был бы признателен за комментарии по этому подходу, в частности, в контексте других подходов.
Обычно при кластеризации цель состоит в том, чтобы разбить набор данных на группы, где каждый элемент находится в некоторой группе. Бикластерные алгоритмы также стремятся поместить все элементы в определенную группу?

clustering data-mining

— Генри Б.
источник

16

Я никогда не использовал его напрямую, поэтому могу поделиться только некоторыми своими работами и общими соображениями по поводу этой техники (которые в основном касаются ваших вопросов 1 и 3).

Мое общее понимание бикластеризации в основном исходит из генетических исследований (2-6), в которых мы стремимся учитывать кластеры генов и группы индивидуумов: короче говоря, мы ищем группы образцов, совместно использующих сходный профиль экспрессии генов (это может быть связано например, к заболеванию) и генам, которые способствуют этому профилю генного профилирования. Обзор современного уровня биологических "массивных" наборов данных доступен на слайдах Пардалоса , Biclustering . Обратите внимание, что существует пакет R, biclust , с приложениями для данных микрочипов.

Фактически, моя первоначальная идея состояла в том, чтобы применить эту методологию к клиническому диагнозу, потому что она позволяет поместить признаки или переменные в более чем один кластер, что интересно с семеологической точки зрения, потому что симптомы, которые объединяются вместе, позволяют определить синдром , но некоторые симптомы могут перекрываются при разных заболеваниях. Хорошее обсуждение может быть найдено в Cramer et al., Comorbidity: сетевая перспектива (Behavioral and Brain Sciences 2010, 33, 137-193).

Несколько связанная техника - совместная фильтрация . Хороший обзор был сделан Су и Хошгофтааром (« Достижения в области искусственного интеллекта» , 2009): обзор методов совместной фильтрации . Другие ссылки перечислены в конце. Может быть, анализ частых наборов товаров , как показано на примере проблемы с корзиной , также связан с этим, но я никогда не исследовал это. Другим примером совместной кластеризации является случай, когда мы хотим одновременно кластеризовать слова и документы, как при анализе текста, например, Dhillon (2001). Совместная кластеризация документов и слов с использованием двудольного разделения спектральных графов . Proc. КДД , с. 269–274.

Что касается некоторых общих ссылок, вот не очень полный список, который, я надеюсь, вы найдете полезным:

Jain, AK (2010). Кластеризация данных: 50 лет после K-средних . Письма о распознавании образов , 31 , 651–666
Кармона-Саез и соавт. (2006). Бикластеризация данных экспрессии генов с помощью негладкой неотрицательной матричной факторизации . БМК Биоинформатика , 7 , 78.
Prelic et al. (2006). Систематическое сравнение и оценка бикластерных методов для данных по экспрессии генов . Биоинформатика , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
DiMaggio et al. (2008). Бикластеризация через оптимальное переупорядочение матриц данных в системной биологии: строгие методы и сравнительные исследования . БМК Биоинформатика , 9 , 458.
Сантамария и др. (2008). BicOverlapper: инструмент для визуализации двух кластеров . Биоинформатика , 24 (9) , 1212-1213.
Мадейра С.К. и Оливейра А.Л. (2004) Бикластерные алгоритмы для анализа биологических данных: обзор . IEEE Trans. Вычи. Biol. Bioinform. , 1 , 24–45.
Бадя Л. (2009). Обобщенные кластерограммы для перекрывающихся бикластеров . IJCAI
Symeonidis, P. (2006). Коллаборативная фильтрация ближайших кластеров . WEBKDD

— хл
источник

1

Отличный ответ. Если бы у меня был еще один голос, я бы снова проголосовал за этот ответ.

— Генри Б.

@chl Первая ссылка на слайды Пардалос, кажется, мертва. Кто-нибудь знает об альтернативном месте?

— Эрик

@Erik Большую часть материалов из слайдов можно найти в « Последовательном бикластеринге с помощью дробного программирования 0–1 » того же автора. (Я проверил содержание слайдов с моей копией неработающей ссылки.)

— chl

4

Вот хороший обзор / обзор:

Станислав Бусыгин, Олег Прокопьев и Панос М. Пардалос. Бикластеризация в интеллектуальном анализе данных . Computer & Operations Research, 35 (9): 2964–2987, сентябрь 2008 г.

— kc2001
источник