Как проверить, пуст ли фрейм данных искры?

102

Прямо сейчас я должен использовать, df.count > 0чтобы проверить DataFrame, пуст или нет. Но это неэффективно. Есть ли лучший способ сделать это?

Спасибо.

PS: я хочу проверить, пуст ли он, чтобы я сохранял только, DataFrameесли он не пустой

apache-spark apache-spark-sql

— auxdx
источник

155

Для Spark 2.1.0 я бы посоветовал использовать head(n: Int)или take(n: Int)с isEmpty, в зависимости от того, что вам больше всего подходит .

df.head(1).isEmpty
df.take(1).isEmpty

с эквивалентом Python:

len(df.head(1)) == 0  # or bool(df.head(1))
len(df.take(1)) == 0  # or bool(df.take(1))

Использование df.first()и df.head()будет возвращать, java.util.NoSuchElementExceptionесли DataFrame пуст. first()звонит head()напрямую, который звонит head(1).head.

def first(): T = head()
def head(): T = head(1).head

head(1)возвращает массив, поэтому принятие headэтого массива вызывает, java.util.NoSuchElementExceptionкогда DataFrame пуст.

def head(n: Int): Array[T] = withAction("head", limit(n).queryExecution)(collectFromPlan)

Поэтому вместо вызова head()используйте head(1)напрямую для получения массива, а затем вы можете использовать isEmpty.

take(n)также эквивалентно head(n)...

def take(n: Int): Array[T] = head(n)

И limit(1).collect()это эквивалентно head(1)(замечание limit(n).queryExecutionв head(n: Int)методе), поэтому все следующие java.util.NoSuchElementExceptionварианты эквивалентны, по крайней мере, из того, что я могу сказать, и вам не придется перехватывать исключение, когда DataFrame пуст.

df.head(1).isEmpty
df.take(1).isEmpty
df.limit(1).collect().isEmpty

Я знаю, что это старый вопрос, поэтому, надеюсь, он поможет кому-то, кто использует более новую версию Spark.

— hulin003
источник

20

Для тех, кто использует pyspark. isEmpty - это не вещь. Вместо этого сделайте len (d.head (1))> 0.

— AntiPawn79

5

почему тогда это лучше df.rdd.isEmpty?

— Дэн Циборовски - MSFT

1

df.head (1) .isEmpty занимает много времени, есть ли другое оптимизированное решение для этого.

— Ракеш Саббани

1

Привет, @Rakesh Sabbani! Если на df.head(1)это уходит много времени, возможно , это потому, что в вашем dfплане выполнения есть что-то сложное, что не позволяет Spark использовать ярлыки. Например, если вы просто читаете паркетные файлы df = spark.read.parquet(...), я уверен, что Spark будет читать только один файловый раздел. Но если вы dfделаете другие вещи, такие как агрегирование, вы можете непреднамеренно заставить Spark читать и обрабатывать большую часть, если не все, ваших исходных данных.

— hulin003

просто сообщаю о своем опыте ИЗБЕГАТЬ: я использовал df.limit(1).count()наивно. На больших наборах данных это занимает гораздо больше времени, чем приведенные примеры @ hulin003, которые почти мгновенны

— Vzzarr

45

Я бы сказал, просто захватить основную RDD. В Scala:

df.rdd.isEmpty

в Python:

df.rdd.isEmpty()

При этом все, что он делает, - это вызов take(1).length, поэтому он будет делать то же самое, что ответил Рохан ... только, может быть, немного более явно?

— Джастин Пихони
источник

6

Это удивительно медленнее , чем df.count () == в моем случае 0

— архитектурном

2

Разве переход на rdd не является сложной задачей?

— Alok

1

На самом деле, нет. RDD по-прежнему являются основой всего Spark.

— Джастин Пихони

28

Не конвертируйте df в RDD. Это замедляет процесс. Если вы конвертируете, он преобразует весь DF в RDD и проверяет, пуст ли он. Подумайте, если в DF есть миллионы строк, преобразование в сам RDD займет много времени.

— Nandakishore 01

3

.rdd настолько сильно замедляет процесс, как сильно

— Raul H

14

Вы можете воспользоваться функциями head()(или first()), чтобы узнать, есть ли у DataFrameних одна строка. Если так, то он не пустой.

— Рохан Алетти
источник

10

если фрейм данных пуст, он выбрасывает «java.util.NoSuchElementException: next на пустом итераторе»; [Spark 1.3.1]

— FelixHo

6

Если да df.count > 0. Он подсчитывает количество всех разделов по всем исполнителям и складывает их в Driver. Это займет некоторое время, когда вы имеете дело с миллионами строк.

Лучший способ сделать это - выполнить df.take(1)и проверить, является ли он нулевым. Это вернется, java.util.NoSuchElementExceptionтак что лучше попробовать df.take(1).

При выполнении фрейм данных возвращает ошибку take(1)вместо пустой строки. Я выделил конкретные строки кода, в которых возникает ошибка.

— Nandakishore
источник

1

если вы запустите это на массивном фреймворке с миллионами записей, этот countметод займет некоторое время.

— TheM00s3

2

Я сказал то же самое, я не уверен, почему ты поставил палец вниз.

— Nandakishore

ваше право, вы сказали то же самое, к сожалению, я не голосовал против вас.

— TheM00s3

Ох, ладно. Прошу прощения, TheMoos3, но кто бы это ни сделал, пожалуйста, обратите внимание на ответ и поймите концепцию.

— Nandakishore

использование df.take (1) при пустом df приводит к возврату пустой ROW, которую нельзя сравнивать с null

— LetsPlayYahtzee

6

Начиная с Spark 2.4.0 существует Dataset.isEmpty.

Его реализация :

def isEmpty: Boolean = 
  withAction("isEmpty", limit(1).groupBy().count().queryExecution) { plan =>
    plan.executeCollect().head.getLong(0) == 0
}

Обратите внимание, что a DataFrameбольше не является классом в Scala, это просто псевдоним типа (вероятно, измененный в Spark 2.0):

type DataFrame = Dataset[Row]

— Бериллий
источник

1

isEmpty медленнее, чем df.head (1) .isEmpty

— Sandeep540,

@ Sandeep540 Правда? Контрольный показатель? В вашем предложении есть хотя бы одна строка. Реализация Spark просто переносит число. head () также использует limit (), groupBy () на самом деле ничего не делает, требуется получить RelationalGroupedDataset, который, в свою очередь, предоставляет count (). Так что это не должно быть значительно медленнее. Вероятно, это будет быстрее в случае набора данных, содержащего много столбцов (возможно, денормализованные вложенные данные). В любом случае, вам нужно меньше печатать :-)

— Бериллий

5

Для пользователей Java вы можете использовать это в наборе данных:

public boolean isDatasetEmpty(Dataset<Row> ds) {
        boolean isEmpty;
        try {
            isEmpty = ((Row[]) ds.head(1)).length == 0;
        } catch (Exception e) {
            return true;
        }
        return isEmpty;
}

Это проверяет все возможные сценарии (пустой, нулевой).

— Абденнасер Лахихеб
источник

3

В Scala вы можете использовать имплициты для добавления методов isEmpty()и nonEmpty()в API DataFrame, что сделает код более удобным для чтения.

object DataFrameExtensions {
  implicit def extendedDataFrame(dataFrame: DataFrame): ExtendedDataFrame = 
    new ExtendedDataFrame(dataFrame: DataFrame)

  class ExtendedDataFrame(dataFrame: DataFrame) {
    def isEmpty(): Boolean = dataFrame.head(1).isEmpty // Any implementation can be used
    def nonEmpty(): Boolean = !isEmpty
  }
}

Здесь также могут быть добавлены другие методы. Чтобы использовать неявное преобразование, используйте import DataFrameExtensions._в файле, в котором вы хотите использовать расширенные функции. Впоследствии методы можно использовать напрямую так:

val df: DataFrame = ...
if (df.isEmpty) {
  // Do something
}

— Шайдо
источник

2

У меня был тот же вопрос, и я протестировал 3 основных решения:

df! = null df.count> 0
df.head (1) .isEmpty () как @ hulin003 предлагает
df.rdd.isEmpty, как предлагает @Justin Pihony

и, конечно же, эти 3 работы, однако с точки зрения перферманса, вот что я обнаружил при выполнении этих методов на одном и том же DF на моей машине во время выполнения:

занимает ~ 9366 мс
занимает ~ 5607 мс
это занимает ~ 1921 мс

поэтому я думаю, что лучшим решением является df.rdd.isEmpty, как предлагает @Justin Pihony

— имя
источник

1

вариант 3 занимает меньше времени, почему второй?

— thinkman

Ой, правильно, я использую 3-й, обновляю ответ

— aName

из любопытства ... с каким размером DataFrames это тестировалось?

— aiguofer

1

Я обнаружил, что в некоторых случаях:

>>>print(type(df))
<class 'pyspark.sql.dataframe.DataFrame'>

>>>df.take(1).isEmpty
'list' object has no attribute 'isEmpty'

это то же самое для "length" или заменить take () на head ()

[Решение] проблемы, которую мы можем использовать.

>>>df.limit(2).count() > 1
False

— Шекхар Коирала
источник

1

Если вы используете Pypsark, вы также можете:

len(df.head(1)) > 0

— Адельхольценер
источник

1

На PySpark, вы также можете использовать это bool(df.head(1))для получения Trueиз Falseзначения

Он возвращается, Falseесли фрейм данных не содержит строк

— Bose
источник

0

df1.take(1).length>0

takeМетод возвращает массив строк, так что если размер массива равен нулю, нет записей в df.

— Гопи А
источник

-1

dataframe.limit(1).count > 0

Это также запускает задание, но, поскольку мы выбираем одну запись, даже в случае записи в миллиард масштабов затраты времени могут быть намного ниже.

Источник: https://medium.com/checking-emptiness-in-distributed-objects/count-vs-isempty-surprised-to-see-the-impact-fa70c0246ee0

— Джордан Моррис
источник

Все это плохие варианты,

— требующие

@PushpendraJaiswal: да, и в мире плохих вариантов мы должны выбрать лучший плохой вариант

— Джордан Моррис

-2

Сделать это можно так:

val df = sqlContext.emptyDataFrame
if( df.eq(sqlContext.emptyDataFrame) )
    println("empty df ")
else 
    println("normal df")

— СЁР ВАН
источник

1

не потребуется ли, schemaчтобы два фрейма данных ( sqlContext.emptyDataFrame& df) были одинаковыми, чтобы когда-либо вернуться true?

— y2k-shubham

1

Это не сработает. eqнаследуется от AnyRefи проверяет, является ли аргумент (that) ссылкой на объект-получатель (this).

— Альпер т. Turker