To brzmi tak, jakby szukasz partitionBy
oznaczono na DataFrameWriter
. Z скаладока:
def partitionBy(colNames: String*): DataFrameWriter[T]
Rozbija wniosek według określonej kolumny w systemie plików. Jeśli określony, dane wyjściowe są wyświetlane w systemie plików, podobnego schematu podziału Hive. Na przykład, gdy dzielimy zbiór danych na lata, a następnie przez miesiąc, układ katalogu będzie wyglądać w następujący sposób:
year=2016/month=01/
year=2016/month=02/
Partycjonowanie-jeden z najczęściej stosowanych metod optymalizacji układu fizycznych danych. Zapewnia грубозернистый indeks do pominięcia zbędnych operacji odczytu danych, gdy wnioski zawierają predykaty w podzielonym na partycje kolumnach. Aby podział działało dobrze, liczba różnych wartości w każdej kolumnie zwykle musi być mniejsza niż kilkadziesiąt tysięcy.
To odnosi się do wszystkich plików źródeł danych (na przykład, Parquet, JSON), począwszy od Spark 2.1.0.