Выбор определенных строк и столбцов из массива NumPy


97

Я схожу с ума, пытаясь понять, какую глупость я здесь делаю неправильно.

Я использую NumPy, и у меня есть определенные индексы строк и определенные индексы столбцов, из которых я хочу выбрать. Вот суть моей проблемы:

import numpy as np

a = np.arange(20).reshape((5,4))
# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [ 8,  9, 10, 11],
#        [12, 13, 14, 15],
#        [16, 17, 18, 19]])

# If I select certain rows, it works
print a[[0, 1, 3], :]
# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [12, 13, 14, 15]])

# If I select certain rows and a single column, it works
print a[[0, 1, 3], 2]
# array([ 2,  6, 14])

# But if I select certain rows AND certain columns, it fails
print a[[0,1,3], [0,2]]
# Traceback (most recent call last):
#   File "<stdin>", line 1, in <module>
# ValueError: shape mismatch: objects cannot be broadcast to a single shape

Почему это происходит? Конечно, я могу выбрать 1-ю, 2-ю и 4-ю строки, а также 1-й и 3-й столбцы? Ожидаемый результат:

a[[0,1,3], [0,2]] => [[0,  2],
                      [4,  6],
                      [12, 14]]

Помечено numpy-разбиение для улучшения поиска. (Также термины «срез» и «нарезка» не встречаются в открытом тексте, мы могли бы использовать некоторые дубликаты с этими терминами, закрытыми в этом)
smci

Ответы:


86

Модное индексирование требует, чтобы вы указали все индексы для каждого измерения. Вы предоставляете 3 индекса для первого и только 2 для второго, отсюда и ошибка. Вы хотите сделать что-то вроде этого:

>>> a[[[0, 0], [1, 1], [3, 3]], [[0,2], [0,2], [0, 2]]]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

Конечно, писать об этом сложно, поэтому вы можете позволить вещанию помочь вам:

>>> a[[[0], [1], [3]], [0, 2]]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

Это намного проще сделать, если вы индексируете массивы, а не списки:

>>> row_idx = np.array([0, 1, 3])
>>> col_idx = np.array([0, 2])
>>> a[row_idx[:, None], col_idx]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

4
Спасибо, я не знал, что у тебя это получится! Вещание - это странно и замечательно ... После двух лет беспорядка я все еще к этому привыкаю.
Praveen

2
Благодарность! В то время как другие ответы действительно ответили на мой вопрос с точки зрения возврата выбранной матрицы, в этом ответе рассматривается это, а также рассматривается проблема присвоения (как установить [[0,1,3], [0,2]] = 0 , например).
Mike C

1
@Jaime - Только вчера я обнаружил одну гильзы встроенной , чтобы сделать именно вещательный трюк вы предлагаете: np.ix_
Praveen

1
Может ли кто-нибудь объяснить, почему синтаксис работает так? По какой причине это работает для обоих первых примеров, но не для третьего. А также, как эту проблему решает инкапсуляция нужных индексов в их собственные списки? Спасибо
Aetos

2
Почему строки должны быть вложенными, а столбцы - нет?
AturSams

86

Как подсказывает Toan, простой хак будет просто выбрать строки, а затем выберите столбцы более , что .

>>> a[[0,1,3], :]            # Returns the rows you want
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [12, 13, 14, 15]])
>>> a[[0,1,3], :][:, [0,2]]  # Selects the columns you want as well
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

[Edit] Встроенный метод: np.ix_

Недавно я обнаружил, что numpy дает вам встроенную однострочную оболочку для выполнения именно того , что предлагал @Jaime, но без необходимости использовать синтаксис широковещательной передачи (который страдает от нечитабельности). Из документов:

Используя ix_, можно быстро создавать массивы индексов, которые будут индексировать перекрестное произведение. a[np.ix_([1,3],[2,5])]возвращает массив [[a[1,2] a[1,5]], [a[3,2] a[3,5]]].

Итак, вы используете это так:

>>> a = np.arange(20).reshape((5,4))
>>> a[np.ix_([0,1,3], [0,2])]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

И способ его работы заключается в том, что он заботится о выравнивании массивов так, как предложил Хайме, чтобы трансляция происходила правильно:

>>> np.ix_([0,1,3], [0,2])
(array([[0],
        [1],
        [3]]), array([[0, 2]]))

Кроме того, как говорит MikeC в комментарии, np.ix_имеет то преимущество, что он возвращает представление, чего не было в моем первом (до редактирования) ответе. Это означает, что теперь вы можете назначить индексированному массиву:

>>> a[np.ix_([0,1,3], [0,2])] = -1
>>> a    
array([[-1,  1, -1,  3],
       [-1,  5, -1,  7],
       [ 8,  9, 10, 11],
       [-1, 13, -1, 15],
       [16, 17, 18, 19]])

4
В нескольких тестах я также обнаружил, np.ix_что он работает быстрее, чем метод выбора первых столбцов, а затем строк (обычно примерно в 2 раза быстрее в моих тестах квадратных массивов размером от 1 до 10 тысяч, где вы повторно индексируете все строки и столбцы).
Натан

7

ИСПОЛЬЗОВАНИЕ:

 >>> a[[0,1,3]][:,[0,2]]
array([[ 0,  2],
   [ 4,  6],
   [12, 14]])

ИЛИ:

>>> a[[0,1,3],::2]
array([[ 0,  2],
   [ 4,  6],
   [12, 14]])

10
Хотя это правильно, вам следует рассмотреть возможность публикации дополнительной информации, объясняющей, почему это правильно.
ebarr 08

2

Использование np.ix_- наиболее удобный способ сделать это (как ответили другие), но вот еще один интересный способ сделать это:

>>> rows = [0, 1, 3]
>>> cols = [0, 2]

>>> a[rows].T[cols].T

array([[ 0,  2],
       [ 4,  6],
       [12, 14]])
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.