Powtórz pliki z folderu i traktować je scala.

0

Pytanie

Mam kilka plików w folderze dla różnych krajów. jak pokazano poniżej

Casedata_GBR_202110_timestamp.csv

Casedata_ARG_202110_timestamp.csv

teraz muszę taktować te pliki, przetworzyć je według krajów i skopiować do odpowiednich folderów. moja struktura folderów docelowych będzie wyglądać tak

2021-->11-->>GBR

2021-->11-->>ARG

W spark scala/scala pomóżcie mi napisać kod do obsługi pliku według krajów i przenieść do odpowiedniego folderu kraju.

apache-spark scala
2021-11-24 06:42:17
1

Najlepsza odpowiedź

0

To brzmi tak, jakby szukasz partitionBy oznaczono na DataFrameWriter. Z скаладока:

def partitionBy(colNames: String*): DataFrameWriter[T]

Rozbija wniosek według określonej kolumny w systemie plików. Jeśli określony, dane wyjściowe są wyświetlane w systemie plików, podobnego schematu podziału Hive. Na przykład, gdy dzielimy zbiór danych na lata, a następnie przez miesiąc, układ katalogu będzie wyglądać w następujący sposób:

year=2016/month=01/
year=2016/month=02/

Partycjonowanie-jeden z najczęściej stosowanych metod optymalizacji układu fizycznych danych. Zapewnia грубозернистый indeks do pominięcia zbędnych operacji odczytu danych, gdy wnioski zawierają predykaty w podzielonym na partycje kolumnach. Aby podział działało dobrze, liczba różnych wartości w każdej kolumnie zwykle musi być mniejsza niż kilkadziesiąt tysięcy.

To odnosi się do wszystkich plików źródeł danych (na przykład, Parquet, JSON), począwszy od Spark 2.1.0.

2021-11-24 08:25:52

czy w każdym przypadku, aby uzyskać jak 2016/01, i czy pomoże foreach przedawkować jeden plik po drugim
Krishna Murthy

muszę taktować jeden za drugim plik w ramkę danych i skopiować go do dużego obiektu binarnego
Krishna Murthy

W innych językach

Ta strona jest w innych językach

Русский
..................................................................................................................
Italiano
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................