PySpark DataFrame列リファレンス:df.col vs. df ['col'] vs. F.col( 'col')?

10
Zilong Z 2019-03-11 15:32.

私はあなたが明確にするのを助けることができると思う概念を持っています:

PySparkデータフレームの列を参照する次の3つの方法の違いは何ですか。さまざまな状況でさまざまな形式が必要であることは知っていますが、その理由はわかりません。

  1. df.col:例F.count(df.col)
  2. df ['col']:例df['col'] == 0
  3. F.col( 'col'):例df.filter(F.col('col').isNull())

どうもありがとう!

1 answers

13
pault 2019-03-11 23:37.

ほとんどの実用的なアプリケーションでは、ほとんど違いはありません。ただし、これらはさまざまな基になる関数の呼び出しによって実装されます(https://spark.apache.org/docs/preview/api/python/_modules/pyspark/sql/dataframe.html)したがって、完全に同じではありません。

小さな例で説明できます。

df = spark.createDataFrame(
    [(1,'a', 0), (2,'b',None), (None,'c',3)], 
    ['col', '2col', 'third col']
)

df.show()
#+----+----+---------+
#| col|2col|third col|
#+----+----+---------+
#|   1|   a|        0|
#|   2|   b|     null|
#|null|   c|        3|
#+----+----+---------+

1.1。 df.col

これは最も柔軟性がありません。.演算子を使用してアクセスできる有効な列のみを参照できます。これにより、スペースまたは特殊文字を含む列名と整数で始まる列名が除外されます。

この構文はを呼び出しますdf.__getattr__("col")

print(df.__getattr__.__doc__)
#Returns the :class:`Column` denoted by ``name``.
#
#        >>> df.select(df.age).collect()
#        [Row(age=2), Row(age=5)]
#
#        .. versionadded:: 1.3

.構文を使用すると、このサンプルデータフレームの最初の列にのみアクセスできます。

>>> df.2col
  File "<ipython-input-39-8e82c2dd5b7c>", line 1
    df.2col
       ^
SyntaxError: invalid syntax

内部では、列名がに含まれているかどうかを確認してからdf.columnspyspark.sql.Column指定されたものを返します。

2.2。 df["col"]

これにより、が呼び出されdf.__getitem__ます。実行できるすべてのこと__getattr__を実行できるという点で、さらに柔軟性があります。さらに、任意の列名を指定できます。

df["2col"]
#Column<2col> 

繰り返しになりますが、内部でいくつかの条件がチェックpyspark.sql.Columnされ、この場合、入力文字列で指定されたものが返されます。

さらに、複数の列(listまたはtuple)または列式を渡すことができます。

from pyspark.sql.functions import expr
df[['col', expr('`third col` IS NULL')]].show()
#+----+-------------------+
#| col|(third col IS NULL)|
#+----+-------------------+
#|   1|              false|
#|   2|               true|
#|null|              false|
#+----+-------------------+

複数の列の場合は__getitem__、を呼び出すだけであることに注意してくださいhttps://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.select。

最後に、インデックスで列にアクセスすることもできます。

df[2]
#Column<third col>

3.3。 pyspark.sql.functions.col

これは、列を選択するSparkネイティブの方法でありexpression、指定された名前に基づいて列を選択する(これはすべての列関数に当てはまります)を返します。これは、文字列リテラルではなく列が必要であることを指定する必要がある場合に便利な省略形です。

たとえば、次の値からの値、"col"または"third col"その値に基づく値のいずれかをとる新しい列を作成したいとします"2col"

from pyspark.sql.functions import when

df.withColumn(
    'new', 
    f.when(df['2col'].isin(['a', 'c']), 'third col').otherwise('col')
).show()
#+----+----+---------+---------+
#| col|2col|third col|      new|
#+----+----+---------+---------+
#|   1|   a|        0|third col|
#|   2|   b|     null|      col|
#|null|   c|        3|third col|
#+----+----+---------+---------+

おっと、それは私が意図したことではありません。Sparkは、リテラル文字列"col"とが必要だと考えました"third col"。代わりに、私が書くべきだったのは:

from pyspark.sql.functions import col
df.withColumn(
    'new', 
    when(df['2col'].isin(['a', 'c']), col('third col')).otherwise(col('col'))
).show()
#+----+----+---------+---+
#| col|2col|third col|new|
#+----+----+---------+---+
#|   1|   a|        0|  0|
#|   2|   b|     null|  2|
#|null|   c|        3|  3|
#+----+----+---------+---+

col()はチェックせずに列式を作成するため、これには2つの興味深い副作用があります。

  1. df固有ではないため、再利用できます
  2. dfが割り当てられる前に使用できます
age = col('dob') / 365
if_expr = when(age < 18, 'underage').otherwise('adult')

df1 = df.read.csv(path).withColumn('age_category', if_expr)

df2 = df.read.parquet(path)\
    .select('*', age.alias('age'), if_expr.alias('age_category'))

age生成Column<b'(dob / 365)'>
if_exprする生成するColumn<b'CASE WHEN ((dob / 365) < 18) THEN underage ELSE adult END'>

Related questions

MORE COOL STUFF

「水曜日」シーズン1の中心には大きなミステリーがあります

「水曜日」シーズン1の中心には大きなミステリーがあります

Netflixの「水曜日」は、典型的な10代のドラマ以上のものであり、実際、シーズン1にはその中心に大きなミステリーがあります.

一部のファンがハリー・スタイルズとオリビア・ワイルドの「非常に友好的な」休憩が永続的であることを望んでいる理由

一部のファンがハリー・スタイルズとオリビア・ワイルドの「非常に友好的な」休憩が永続的であることを望んでいる理由

一部のファンが、オリビア・ワイルドが彼女とハリー・スタイルズとの間の「難しい」が「非常に友好的」な分割を恒久的にすることを望んでいる理由を見つけてください.

エリザベス女王の死後、ケイト・ミドルトンはまだ「非常に困難な時期」を過ごしている、と王室の専門家が明らかにする 

エリザベス女王の死後、ケイト・ミドルトンはまだ「非常に困難な時期」を過ごしている、と王室の専門家が明らかにする&nbsp;

エリザベス女王の死後、ケイト・ミドルトンが舞台裏で「非常に困難な時期」を過ごしていたと伝えられている理由を調べてください.

ウィリアム王子は「非常に現代的なお父さん」だと王室の専門家は言う

ウィリアム王子は「非常に現代的なお父さん」だと王室の専門家は言う

ある王室の専門家が、特に彼の家族の他の王室の両親と比較して、ウィリアム王子が「非常に現代的な父親」であると考える理由を学びましょう.

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セント ヘレナ島のジェイコブズ ラダーは 699 段の真っ直ぐ上る階段で、頂上に到達すると証明書が発行されるほどの難易度です。

The Secrets of Airline Travel Quiz

The Secrets of Airline Travel Quiz

Air travel is far more than getting from point A to point B safely. How much do you know about the million little details that go into flying on airplanes?

Where in the World Are You? Take our GeoGuesser Quiz

Where in the World Are You? Take our GeoGuesser Quiz

The world is a huge place, yet some GeoGuessr players know locations in mere seconds. Are you one of GeoGuessr's gifted elite? Take our quiz to find out!

バイオニック読書はあなたをより速く読むことができますか?

バイオニック読書はあなたをより速く読むことができますか?

BionicReadingアプリの人気が爆発的に高まっています。しかし、それは本当にあなたを速読術にすることができますか?

メイミー・ジョンソン、ニグロリーグでピッチングした女性、82歳で死去

メイミー・ジョンソン、ニグロリーグでピッチングした女性、82歳で死去

写真提供者:Khue Bui / AP Mamie Johnsonは、ニグロリーグでプレーする3人の女性の1人で、82歳で亡くなりました。ジョンソンは子供の頃から野球を始め、最初に全米女子プロ野球に挑戦しました。 17歳のリーグだが、黒人だったのでフィールドへの出場は許されなかった。

グローアップゴール:カルメンデラヴァラードは時代を超えた魅力の縮図です

グローアップゴール:カルメンデラヴァラードは時代を超えた魅力の縮図です

ジャックミッチェル/ゲッティイメージズ日曜日の夜、ダンサー、振付師、女優のカルメンデラヴァラードが第40回ケネディセンター名誉賞を受賞しました。今年は、ドナルドトランプ首長のクレチンが祝福されていないことで、この式典がさらに注目を集めました。まだ見事な86歳のとき、伝説的なパフォーマーであるde Lavalladeは失望せず、真の優雅さと美しさが時代を超えていることを示しました。

ファイナルファンタジーXVのマルチプレイヤーは少量でとても楽しいです

ファイナルファンタジーXVのマルチプレイヤーは少量でとても楽しいです

くそー、私はちょうどこのシャツを買いました。一部の人にとっては、ファイナルファンタジーXVのマルチプレイヤー拡張パックは、スクウェア・エニックスの壮大なRPGを友達と体験するための面白い(少しイライラする場合でも)方法です。

ナズは面会権をめぐってケリスを法廷に連れて行く

ナズは面会権をめぐってケリスを法廷に連れて行く

ナズとケリス(ローレンス・ルシエ/ゲッティイメージズ)ナズは息子とより多くの時間を過ごしたいと考えており、現在、元妻のケリスを正式な面会スケジュールのために法廷に連れて行っています。ブラストが入手した文書によると、ナズは彼がは「長年にわたってケリスと協力して働いてきた」が、ケリスは「彼女が自分にとって都合がよいと判断した場合にのみ、息子との監護権を行使することを許可している。

ケイト・ミドルトンとウィリアム王子は、彼らが子供たちと行っているスパイをテーマにした活動を共有しています

ケイト・ミドルトンとウィリアム王子は、彼らが子供たちと行っているスパイをテーマにした活動を共有しています

ケイト・ミドルトンとウィリアム王子は、子供向けのパズルの本の序文を書き、ジョージ王子、シャーロット王女、ルイ王子と一緒にテキストを読むと述べた.

事故で押しつぶされたスイカは、動物を喜ばせ水分補給するために野生生物保護団体に寄付されました

事故で押しつぶされたスイカは、動物を喜ばせ水分補給するために野生生物保護団体に寄付されました

Yak's Produce は、数十個のつぶれたメロンを野生動物のリハビリ専門家であるレスリー グリーンと彼女のルイジアナ州の救助施設で暮らす 42 匹の動物に寄付しました。

デミ・ロヴァートは、新しいミュージシャンのボーイフレンドと「幸せで健康的な関係」にあります: ソース

デミ・ロヴァートは、新しいミュージシャンのボーイフレンドと「幸せで健康的な関係」にあります: ソース

8 枚目のスタジオ アルバムのリリースに向けて準備を進めているデミ ロヴァートは、「スーパー グレート ガイ」と付き合っている、と情報筋は PEOPLE に確認しています。

Plathville の Kim と Olivia Plath が数年ぶりに言葉を交わすことへようこそ

Plathville の Kim と Olivia Plath が数年ぶりに言葉を交わすことへようこそ

イーサン プラスの誕生日のお祝いは、TLC のウェルカム トゥ プラスビルのシーズン 4 のフィナーレで、戦争中の母親のキム プラスと妻のオリビア プラスを結びつけました。

仕事の生産性を高める 8 つのシンプルなホーム オフィスのセットアップのアイデア

仕事の生産性を高める 8 つのシンプルなホーム オフィスのセットアップのアイデア

ホームオフィスのセットアップ術を極めよう!AppExert の開発者は、家族全員が一緒にいる場合でも、在宅勤務の技術を習得しています。祖父や曽祖父が共同家族で暮らしていた頃の記憶がよみがえりました。

2022 年、私たちのデジタル ライフはどこで終わり、「リアル ライフ」はどこから始まるのでしょうか?

20 年前のタイムトラベラーでさえ、日常生活におけるデジタルおよびインターネットベースのサービスの重要性に驚くことでしょう。MySpace、eBay、Napster などのプラットフォームは、高速化に焦点を合わせた世界がどのようなものになるかを示してくれました。

ニューロマーケティングの秘密科学

ニューロマーケティングの秘密科学

マーケティング担当者が人間の欲望を操作するために使用する、最先端の (気味が悪いと言う人もいます) メソッドを探ります。カートをいっぱいにして 3 桁の領収書を持って店を出る前に、ほんの数点の商品を買いに行ったことはありませんか? あなたは一人じゃない。

地理情報システムの日: GIS 開発者として学ぶべき最高の技術スタック

地理情報システムの日: GIS 開発者として学ぶべき最高の技術スタック

私たちが住んでいる世界を確実に理解するには、データが必要です。ただし、空間参照がない場合、このデータは地理的コンテキストがないと役に立たなくなる可能性があります。

Language