Spark Data Frame을 Database Table 처럼 사용

import pandas as pd

pandf = pd.read_csv("data/Uber-Jan-Feb-FOIL.csv", header=0)

pandf.head()

Spark Session 데이터 프레임 생성¶

uberDF = spark.read.csv("data/Uber-Jan-Feb-FOIL.csv", inferSchema=True, header=True)

spark.read.format("csv").load("data/Uber-Jan-Feb-FOIL.csv").show()

+--------------------+--------+---------------+-----+
|                 _c0|     _c1|            _c2|  _c3|
+--------------------+--------+---------------+-----+
|dispatching_base_...|    date|active_vehicles|trips|
|              B02512|1/1/2015|            190| 1132|
|              B02765|1/1/2015|            225| 1765|
|              B02764|1/1/2015|           3427|29421|
|              B02682|1/1/2015|            945| 7679|
|              B02617|1/1/2015|           1228| 9537|
|              B02598|1/1/2015|            870| 6903|
|              B02598|1/2/2015|            785| 4768|
|              B02617|1/2/2015|           1137| 7065|
|              B02512|1/2/2015|            175|  875|
|              B02682|1/2/2015|            890| 5506|
|              B02765|1/2/2015|            196| 1001|
|              B02764|1/2/2015|           3147|19974|
|              B02765|1/3/2015|            201| 1526|
|              B02617|1/3/2015|           1188|10664|
|              B02598|1/3/2015|            818| 7432|
|              B02682|1/3/2015|            915| 8010|
|              B02512|1/3/2015|            173| 1088|
|              B02764|1/3/2015|           3215|29729|
|              B02512|1/4/2015|            147|  791|
+--------------------+--------+---------------+-----+
only showing top 20 rows

    uberDF.createOrReplaceTempView("uber")

Spark SQL SELECT¶

spark_select = spark.sql("select * from uber limit 10").show()

+-----------------------+--------+---------------+-----+
|dispatching_base_number|    date|active_vehicles|trips|
+-----------------------+--------+---------------+-----+
|                 B02512|1/1/2015|            190| 1132|
|                 B02765|1/1/2015|            225| 1765|
|                 B02764|1/1/2015|           3427|29421|
|                 B02682|1/1/2015|            945| 7679|
|                 B02617|1/1/2015|           1228| 9537|
|                 B02598|1/1/2015|            870| 6903|
|                 B02598|1/2/2015|            785| 4768|
|                 B02617|1/2/2015|           1137| 7065|
|                 B02512|1/2/2015|            175|  875|
|                 B02682|1/2/2015|            890| 5506|
+-----------------------+--------+---------------+-----+

SELECT column limit¶

spark.sql("select date, dispatching_base_number from uber limit 10").show()

+--------+-----------------------+
|    date|dispatching_base_number|
+--------+-----------------------+
|1/1/2015|                 B02512|
|1/1/2015|                 B02765|
|1/1/2015|                 B02764|
|1/1/2015|                 B02682|
|1/1/2015|                 B02617|
|1/1/2015|                 B02598|
|1/2/2015|                 B02598|
|1/2/2015|                 B02617|
|1/2/2015|                 B02512|
|1/2/2015|                 B02682|
+--------+-----------------------+

SELECT DISTINCT¶

spark.sql("select distinct dispatching_base_number from uber").show()

+-----------------------+
|dispatching_base_number|
+-----------------------+
|                 B02512|
|                 B02598|
|                 B02682|
|                 B02765|
|                 B02617|
|                 B02764|
+-----------------------+

WHERE¶

spark.sql("SELECT count(*) from uber where trips > 2000").show()

+--------+
|count(1)|
+--------+
|     284|
+--------+

distinct, sum, group by, order by¶

spark.sql(""" select distinct dispatching_base_number, sum(trips) tripsum
              from uber
              group by dispatching_base_number
              order by tripsum desc
          """).show()

+-----------------------+-------+
|dispatching_base_number|tripsum|
+-----------------------+-------+
|                 B02764|1914449|
|                 B02617| 725025|
|                 B02682| 662509|
|                 B02598| 540791|
|                 B02765| 193670|
|                 B02512|  93786|
+-----------------------+-------+

spark.sql(""" select distinct date, sum(trips) tripsum
              from uber
              group by date
              order by tripsum desc
              limit 10
          """).show()

+---------+-------+
|     date|tripsum|
+---------+-------+
|2/20/2015| 100915|
|2/14/2015| 100345|
|2/21/2015|  98380|
|2/13/2015|  98024|
|1/31/2015|  92257|
|2/15/2015|  89401|
|2/27/2015|  88806|
|2/19/2015|  88757|
|2/28/2015|  88181|
| 2/6/2015|  85940|
+---------+-------+

between¶

#범위
spark.sql("select * from uber where trips between 1000 and 2000 limit 10").show()

+-----------------------+--------+---------------+-----+
|dispatching_base_number|    date|active_vehicles|trips|
+-----------------------+--------+---------------+-----+
|                 B02512|1/1/2015|            190| 1132|
|                 B02765|1/1/2015|            225| 1765|
|                 B02765|1/2/2015|            196| 1001|
|                 B02765|1/3/2015|            201| 1526|
|                 B02512|1/3/2015|            173| 1088|
|                 B02765|1/5/2015|            227| 1133|
|                 B02765|1/6/2015|            234| 1376|
|                 B02512|1/6/2015|            218| 1314|
|                 B02765|1/7/2015|            248| 1704|
|                 B02512|1/7/2015|            217| 1446|
+-----------------------+--------+---------------+-----+

Selenium을 이용한 인스타그램 크롤링 (3)	2020.06.11
Spark을 이용한 Deeplearning (0)	2020.06.11
Spark DataFrame (PySpark) (0)	2020.04.20
R을 이용한 Bioinformatics (Bioconductor) (1)	2020.04.20
Apache Spark 기능 (0)	2020.02.13

Spark SQL(Pyspark)

SQL(Structured Query Language)

Spark SQL

Spark SQL 예시 1

Spark SQL 예시 2

Spark Session 데이터 프레임 생성¶

Spark SQL SELECT¶

SELECT column limit¶

SELECT DISTINCT¶

WHERE¶

distinct, sum, group by, order by¶

between¶

'Data > Bigdata' 카테고리의 다른 글

티스토리툴바

	dispatching_base_number	date	active_vehicles	trips
0	B02512	1/1/2015	190	1132
1	B02765	1/1/2015	225	1765
2	B02764	1/1/2015	3427	29421
3	B02682	1/1/2015	945	7679
4	B02617	1/1/2015	1228	9537