Найти все вхождения ключа во вложенных словарях и списках

Question 1

У меня есть такой словарь:

{ "id" : "abcde",
  "key1" : "blah",
  "key2" : "blah blah",
  "nestedlist" : [ 
    { "id" : "qwerty",
      "nestednestedlist" : [ 
        { "id" : "xyz",
          "keyA" : "blah blah blah" },
        { "id" : "fghi",
          "keyZ" : "blah blah blah" }],
      "anothernestednestedlist" : [ 
        { "id" : "asdf",
          "keyQ" : "blah blah" },
        { "id" : "yuiop",
          "keyW" : "blah" }] } ] }

В основном это словарь с вложенными списками, словарями и строками произвольной глубины.

Как лучше всего обойти это, чтобы извлечь значения каждого ключа "id"? Я хочу получить эквивалент запроса XPath, например «// id». Значение «id» всегда является строкой.

Итак, в моем примере результат, который мне нужен, в основном:

["abcde", "qwerty", "xyz", "fghi", "asdf", "yuiop"]

Порядок не важен.

Question 2

Я нашел этот вопрос / ответ очень интересным, поскольку он предлагает несколько различных решений одной и той же проблемы. Я взял все эти функции и протестировал их со сложным словарным объектом. Мне пришлось исключить две функции из теста, потому что у них было много неудачных результатов, и они не поддерживали возвращение списков или диктов в качестве значений, что я считаю важным, поскольку функция должна быть подготовлена практически для любых данных.

Итак, я прокачал другие функции за 100000 итераций через timeitмодуль, и на выходе получился следующий результат:

0.11 usec/pass on gen_dict_extract(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
6.03 usec/pass on find_all_items(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
0.15 usec/pass on findkeys(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
1.79 usec/pass on get_recursively(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
0.14 usec/pass on find(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
0.36 usec/pass on dict_extract(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -

У всех функций была одна и та же стрелка для поиска ('ведение журнала') и один и тот же объект словаря, который построен следующим образом:

o = { 'temparature': '50', 
      'logging': {
        'handlers': {
          'console': {
            'formatter': 'simple', 
            'class': 'logging.StreamHandler', 
            'stream': 'ext://sys.stdout', 
            'level': 'DEBUG'
          }
        },
        'loggers': {
          'simpleExample': {
            'handlers': ['console'], 
            'propagate': 'no', 
            'level': 'INFO'
          },
         'root': {
           'handlers': ['console'], 
           'level': 'DEBUG'
         }
       }, 
       'version': '1', 
       'formatters': {
         'simple': {
           'datefmt': "'%Y-%m-%d %H:%M:%S'", 
           'format': '%(asctime)s - %(name)s - %(levelname)s - %(message)s'
         }
       }
     }, 
     'treatment': {'second': 5, 'last': 4, 'first': 4},   
     'treatment_plan': [[4, 5, 4], [4, 5, 4], [5, 5, 5]]
}

Все функции дали одинаковый результат, но разница во времени огромна! Функция gen_dict_extract(k,o)- это моя функция, адаптированная из приведенных здесь функций, на самом деле она очень похожа на findфункцию из Alfe, с основным отличием, что я проверяю, имеет ли данный объект функцию iteritems, в случае, если строки передаются во время рекурсии:

def gen_dict_extract(key, var):
    if hasattr(var,'iteritems'):
        for k, v in var.iteritems():
            if k == key:
                yield v
            if isinstance(v, dict):
                for result in gen_dict_extract(key, v):
                    yield result
            elif isinstance(v, list):
                for d in v:
                    for result in gen_dict_extract(key, d):
                        yield result

Таким образом, этот вариант является самым быстрым и безопасным из имеющихся здесь функций. И find_all_itemsон невероятно медленный и далеко от второго по скорости, в get_recursivleyто время как остальные, за исключением dict_extract, близки друг к другу. Функции funи keyHoleработают только в том случае, если вы ищете строки.

Интересный аспект обучения :)

Question 3

d = { "id" : "abcde",
    "key1" : "blah",
    "key2" : "blah blah",
    "nestedlist" : [ 
    { "id" : "qwerty",
        "nestednestedlist" : [ 
        { "id" : "xyz", "keyA" : "blah blah blah" },
        { "id" : "fghi", "keyZ" : "blah blah blah" }],
        "anothernestednestedlist" : [ 
        { "id" : "asdf", "keyQ" : "blah blah" },
        { "id" : "yuiop", "keyW" : "blah" }] } ] } 


def fun(d):
    if 'id' in d:
        yield d['id']
    for k in d:
        if isinstance(d[k], list):
            for i in d[k]:
                for j in fun(i):
                    yield j

>>> list(fun(d))
['abcde', 'qwerty', 'xyz', 'fghi', 'asdf', 'yuiop']

Question 4

d = { "id" : "abcde",
    "key1" : "blah",
    "key2" : "blah blah",
    "nestedlist" : [
    { "id" : "qwerty",
        "nestednestedlist" : [
        { "id" : "xyz", "keyA" : "blah blah blah" },
        { "id" : "fghi", "keyZ" : "blah blah blah" }],
        "anothernestednestedlist" : [
        { "id" : "asdf", "keyQ" : "blah blah" },
        { "id" : "yuiop", "keyW" : "blah" }] } ] }


def findkeys(node, kv):
    if isinstance(node, list):
        for i in node:
            for x in findkeys(i, kv):
               yield x
    elif isinstance(node, dict):
        if kv in node:
            yield node[kv]
        for j in node.values():
            for x in findkeys(j, kv):
                yield x

print(list(findkeys(d, 'id')))

Question 5

def find(key, value):
  for k, v in value.iteritems():
    if k == key:
      yield v
    elif isinstance(v, dict):
      for result in find(key, v):
        yield result
    elif isinstance(v, list):
      for d in v:
        for result in find(key, d):
          yield result

РЕДАКТИРОВАТЬ: @Anthon заметил, что это не сработает для напрямую вложенных списков. Если у вас есть это на входе, вы можете использовать это:

def find(key, value):
  for k, v in (value.iteritems() if isinstance(value, dict) else
               enumerate(value) if isinstance(value, list) else []):
    if k == key:
      yield v
    elif isinstance(v, (dict, list)):
      for result in find(key, v):
        yield result

Но я думаю, что исходную версию легче понять, поэтому я оставлю ее.

Question 6

Другой вариант, который включает вложенный путь к найденным результатам ( примечание: в этой версии списки не рассматриваются ):

def find_all_items(obj, key, keys=None):
    """
    Example of use:
    d = {'a': 1, 'b': 2, 'c': {'a': 3, 'd': 4, 'e': {'a': 9, 'b': 3}, 'j': {'c': 4}}}
    for k, v in find_all_items(d, 'a'):
        print "* {} = {} *".format('->'.join(k), v)    
    """
    ret = []
    if not keys:
        keys = []
    if key in obj:
        out_keys = keys + [key]
        ret.append((out_keys, obj[key]))
    for k, v in obj.items():
        if isinstance(v, dict):
            found_items = find_all_items(v, key, keys=(keys+[k]))
            ret += found_items
    return ret

Question 7

Я просто хотел повторить отличный ответ @hexerei-software, используя yield fromи принимая списки верхнего уровня.

def gen_dict_extract(var, key):
    if isinstance(var, dict):
        for k, v in var.items():
            if k == key:
                yield v
            if isinstance(v, (dict, list)):
                yield from gen_dict_extract(v, key)
    elif isinstance(var, list):
        for d in var:
            yield from gen_dict_extract(d, key)

Question 8

Эта функция рекурсивно ищет словарь, содержащий вложенные словари и списки. Он создает список под названием fields_found, который содержит значение для каждого случая обнаружения поля. «Поле» - это ключ, который я ищу в словаре, его вложенных списках и словарях.

def get_recursively (search_dict, поле):
    "" "Делает диктовку с вложенными списками и диктовками,
    и ищет во всех словарях ключ поля
    при условии.
    "" "
    fields_found = []

    для ключа значение в search_dict.iteritems ():

        если поле key ==:
            fields_found.append (значение)

        elif isinstance (значение, dict):
            results = get_recursively (значение, поле)
            для результата в результатах:
                fields_found.append (результат)

        elif isinstance (значение, список):
            для позиции по стоимости:
                если isinstance (item, dict):
                    more_results = get_recursively (элемент, поле)
                    для another_result в more_results:
                        fields_found.append (другой_результат)

    вернуть fields_found

Question 9

Вот мой удар:

def keyHole(k2b,o):
  # print "Checking for %s in "%k2b,o
  if isinstance(o, dict):
    for k, v in o.iteritems():
      if k == k2b and not hasattr(v, '__iter__'): yield v
      else:
        for r in  keyHole(k2b,v): yield r
  elif hasattr(o, '__iter__'):
    for r in [ keyHole(k2b,i) for i in o ]:
      for r2 in r: yield r2
  return

Пример:

>>> findMe = {'Me':{'a':2,'Me':'bop'},'z':{'Me':4}}
>>> keyHole('Me',findMe)
<generator object keyHole at 0x105eccb90>
>>> [ x for x in keyHole('Me',findMe) ]
['bop', 4]

Question 10

Следуя ответу программного обеспечения @hexerei и комментарию @bruno-bronosky, если вы хотите перебрать список / набор ключей:

def gen_dict_extract(var, keys):
   for key in keys:
      if hasattr(var, 'items'):
         for k, v in var.items():
            if k == key:
               yield v
            if isinstance(v, dict):
               for result in gen_dict_extract([key], v):
                  yield result
            elif isinstance(v, list):
               for d in v:
                  for result in gen_dict_extract([key], d):
                     yield result

Обратите внимание, что я передаю список с одним элементом ([key]} вместо строкового ключа.