Spark SQL:キャッシュメモリのフットプリントは「orderby」で向上します

3
Mohitt 2016-03-26 16:05.

私は私がしている2つのシナリオ持って23 GB分割parquetデータをとのいくつかを読んをcolumnscachingそれが後に、その後の一連のクエリを発射する先行します。

セットアップ

  • クラスター:12ノードEMR
  • Sparkバージョン:1.6
  • Spark構成:デフォルト
  • 実行構成:どちらの場合も同じ

ケース1

val paths = Array("s3://my/parquet/path", ...)
val parqFile = sqlContext.read.parquet(paths:_*)
parqFile.registerTempTable("productViewBase")
val dfMain = sqlContext.sql("select guid,email,eventKey,timestamp,pogId from productViewBase")
dfMain.cache.count

からSparkUI、読み取られた入力データは6.2 GBで、キャッシュされたオブジェクトは15.1GBです。

ケース1

val paths = Array("s3://my/parquet/path", ...)
val parqFile = sqlContext.read.parquet(paths:_*)
parqFile.registerTempTable("productViewBase")
val dfMain = sqlContext.sql("select guid,email,eventKey,timestamp,pogId from productViewBase order by pogId")
dfMain.cache.count

からSparkUI、読み取られた入力データは6.2 GBで、キャッシュされたオブジェクトは5.5GBです。

この動作の説明、またはコード参照はありますか?

1 answers

3
zero323 2016-03-26 23:49.

実際には比較的簡単です。SQLガイドで読むことができるように:

Spark SQLは、メモリ内の列形式を使用してテーブルをキャッシュできます... Spark SQLは、必要な列のみをスキャンし、圧縮を自動的に調整します

ソートされた列型ストレージの良いところは、一般的なデータを非常に簡単に圧縮できることです。並べ替えると、RLEのような非常に単純な手法を使用して、一緒に押しつぶすことができる類似のレコードのこれらのブロックを取得します。

これは、ストレージだけでなく集約の点でも非常に効率的であるため、列型ストレージを備えたデータベースで実際に非常に頻繁に使用されるプロパティです。

Sparkの柱状圧縮のさまざまな側面がsql.execution.columnar.compressionパッケージでカバーされており、ご覧のとおり、RunLengthEncoding実際に利用可能な圧縮スキームの1つです。

したがって、ここには2つの部分があります。

  • Sparkは、統計に基づいてオンザフライで圧縮方法を調整できます。

    Spark SQLは、データの統計に基づいて、各列の圧縮コーデックを自動的に選択します。

  • 並べ替えにより、類似したレコードをクラスター化して、圧縮をはるかに効率的にすることができます。

列間に何らかの相関関係がある場合(そうでない場合は?)、単一の列に基づく単純な並べ替えでも、比較的大きな影響を及ぼし、さまざまな圧縮スキームのパフォーマンスを向上させることができます。

Related questions

MORE COOL STUFF

「水曜日」シーズン1の中心には大きなミステリーがあります

「水曜日」シーズン1の中心には大きなミステリーがあります

Netflixの「水曜日」は、典型的な10代のドラマ以上のものであり、実際、シーズン1にはその中心に大きなミステリーがあります.

ボディーランゲージの専門家は、州訪問中にカミラ・パーカー・ボウルズが輝くことを可能にした微妙なケイト・ミドルトンの動きを指摘しています

ボディーランゲージの専門家は、州訪問中にカミラ・パーカー・ボウルズが輝くことを可能にした微妙なケイト・ミドルトンの動きを指摘しています

ケイト・ミドルトンは、州の夕食会と州の訪問中にカミラ・パーカー・ボウルズからスポットライトを奪いたくなかった、と専門家は言う.

一部のファンがハリー・スタイルズとオリビア・ワイルドの「非常に友好的な」休憩が永続的であることを望んでいる理由

一部のファンがハリー・スタイルズとオリビア・ワイルドの「非常に友好的な」休憩が永続的であることを望んでいる理由

一部のファンが、オリビア・ワイルドが彼女とハリー・スタイルズとの間の「難しい」が「非常に友好的」な分割を恒久的にすることを望んでいる理由を見つけてください.

エリザベス女王の死後、ケイト・ミドルトンはまだ「非常に困難な時期」を過ごしている、と王室の専門家が明らかにする 

エリザベス女王の死後、ケイト・ミドルトンはまだ「非常に困難な時期」を過ごしている、と王室の専門家が明らかにする 

エリザベス女王の死後、ケイト・ミドルトンが舞台裏で「非常に困難な時期」を過ごしていたと伝えられている理由を調べてください.

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セント ヘレナ島のジェイコブズ ラダーは 699 段の真っ直ぐ上る階段で、頂上に到達すると証明書が発行されるほどの難易度です。

The Secrets of Airline Travel Quiz

The Secrets of Airline Travel Quiz

Air travel is far more than getting from point A to point B safely. How much do you know about the million little details that go into flying on airplanes?

Where in the World Are You? Take our GeoGuesser Quiz

Where in the World Are You? Take our GeoGuesser Quiz

The world is a huge place, yet some GeoGuessr players know locations in mere seconds. Are you one of GeoGuessr's gifted elite? Take our quiz to find out!

バイオニック読書はあなたをより速く読むことができますか?

バイオニック読書はあなたをより速く読むことができますか?

BionicReadingアプリの人気が爆発的に高まっています。しかし、それは本当にあなたを速読術にすることができますか?

独自のGoogleHomeジュークボックスを作成する方法

独自のGoogleHomeジュークボックスを作成する方法

スマートホームサウンドシステムをワンランク上に上げたいとお考えの場合は、これが楽しい方法です。少し余分な作業といくつかのRFIDテクノロジーを使用して、次のパーティーで感動すること間違いなしの独自のカード駆動ジュークボックスを構築できます。

はい、私たちの生活のための行進は黒人についてでした、そしてそれは時間についてです

はい、私たちの生活のための行進は黒人についてでした、そしてそれは時間についてです

コモンとアンドラデイは、2018年3月24日、ワシントンDCで開催されるマーチフォーアワーライフズラリーで、シェハン枢機卿学校合唱団のメンバーと「スタンドアップフォーサムシング」を行います。

テスラモデル3について何を知りたいですか?

テスラモデル3について何を知りたいですか?

テスラモデル3は未来的であるだけでなく、驚くほど普通に感じます。しかし、実際には何が正常ですか?前回はモデル3を数時間しか運転で​​きませんでしたが、今回は週末を過ごしました。

今週のビジネス:スイッチポートの本当の問題

今週のビジネス:スイッチポートの本当の問題

見積もり| 「スイッチはPS4やXboxOneほど強力ではありません。誰もがそれを知っています。

ケイト・ミドルトンとウィリアム王子は、彼らが子供たちと行っているスパイをテーマにした活動を共有しています

ケイト・ミドルトンとウィリアム王子は、彼らが子供たちと行っているスパイをテーマにした活動を共有しています

ケイト・ミドルトンとウィリアム王子は、子供向けのパズルの本の序文を書き、ジョージ王子、シャーロット王女、ルイ王子と一緒にテキストを読むと述べた.

事故で押しつぶされたスイカは、動物を喜ばせ水分補給するために野生生物保護団体に寄付されました

事故で押しつぶされたスイカは、動物を喜ばせ水分補給するために野生生物保護団体に寄付されました

Yak's Produce は、数十個のつぶれたメロンを野生動物のリハビリ専門家であるレスリー グリーンと彼女のルイジアナ州の救助施設で暮らす 42 匹の動物に寄付しました。

デミ・ロヴァートは、新しいミュージシャンのボーイフレンドと「幸せで健康的な関係」にあります: ソース

デミ・ロヴァートは、新しいミュージシャンのボーイフレンドと「幸せで健康的な関係」にあります: ソース

8 枚目のスタジオ アルバムのリリースに向けて準備を進めているデミ ロヴァートは、「スーパー グレート ガイ」と付き合っている、と情報筋は PEOPLE に確認しています。

Plathville の Kim と Olivia Plath が数年ぶりに言葉を交わすことへようこそ

Plathville の Kim と Olivia Plath が数年ぶりに言葉を交わすことへようこそ

イーサン プラスの誕生日のお祝いは、TLC のウェルカム トゥ プラスビルのシーズン 4 のフィナーレで、戦争中の母親のキム プラスと妻のオリビア プラスを結びつけました。

仕事の生産性を高める 8 つのシンプルなホーム オフィスのセットアップのアイデア

仕事の生産性を高める 8 つのシンプルなホーム オフィスのセットアップのアイデア

ホームオフィスのセットアップ術を極めよう!AppExert の開発者は、家族全員が一緒にいる場合でも、在宅勤務の技術を習得しています。祖父や曽祖父が共同家族で暮らしていた頃の記憶がよみがえりました。

2022 年、私たちのデジタル ライフはどこで終わり、「リアル ライフ」はどこから始まるのでしょうか?

20 年前のタイムトラベラーでさえ、日常生活におけるデジタルおよびインターネットベースのサービスの重要性に驚くことでしょう。MySpace、eBay、Napster などのプラットフォームは、高速化に焦点を合わせた世界がどのようなものになるかを示してくれました。

ニューロマーケティングの秘密科学

ニューロマーケティングの秘密科学

マーケティング担当者が人間の欲望を操作するために使用する、最先端の (気味が悪いと言う人もいます) メソッドを探ります。カートをいっぱいにして 3 桁の領収書を持って店を出る前に、ほんの数点の商品を買いに行ったことはありませんか? あなたは一人じゃない。

地理情報システムの日: GIS 開発者として学ぶべき最高の技術スタック

地理情報システムの日: GIS 開発者として学ぶべき最高の技術スタック

私たちが住んでいる世界を確実に理解するには、データが必要です。ただし、空間参照がない場合、このデータは地理的コンテキストがないと役に立たなくなる可能性があります。

Language