Chcę odtworzyć poniższy kod, za pomocą funkcji ramki danych pyspark zamiast zapytania SQL.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Chcę odtworzyć poniższy kod, za pomocą funkcji ramki danych pyspark zamiast zapytania SQL.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Oto kod, jeśli zaczniesz z powiązanego pliku CSV. Trzeba rozpoznać funkcje SQL. Zauważ, że używamy inferSchema
opcja bezpośredniego analizowania liczb na podwójne i uzyskania prawidłowej kolejności (to nie będzie działać zgodnie z oczekiwaniami, z typem polecenia domyślne). Innym sposobem byłoby prowadzić kolumnę po przeczytaniu CSV.
spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv("walmart_stock.csv")
.orderBy(f.col("High"), desc=True)
.limit(1)
.select("Date")
.show()
co daje
+----------+
| Date|
+----------+
|2015-11-13|
+----------+