🐷전동준(Jeon DongJun)

Go with the flow

[Spark]스파크 복습 - 2(DataFrame/Spark SQL)

Spark 2일차

DataFrame/Spark SQL

개념

Spark SQL
- Query 작업을 가능하게 해주는 라이브러리
- ANSI 표준 SQL, HIVE SQL 등의 문법을 사용해 데이터 관리
- RDD-Like 타입 사용 (DataFrame, DataSet)
DataFrame
- row(행) + column(열) 형식을 가지는 분산 테이블 형태의 렉션
- schema : 데이터프레임의 컬럼, 데이터타입 등을 정의
- execution plan : 연산이 데이터에 적용되는 순서 정의
- ansi sql : ANSI 표준 SQL을 사용하여 데이터 질의 가능
  - spark.sql("ANSI SQL")

실습

myRange = spark.range(1000).toDF("number")
myRange.head(10)
myRange.tail(10)

number라는 컬럼을 가진 DF을 생성
pandas처럼 head tail 사용

divisBy2 = myRange.where("number % 2 = 0")
divisBy2.head(5)
divisBy2.tail(5)

기존 myRange DF에서 짝수 값만 빼서 데이터프레임 생성

기존에 저장해놓은 csv파일 불러오기
- ```
flights2010 = spark.read.csv("/home/big/data/flights/csv/2010-summary.csv")
flights2010.printSchema()
flights2010.take(5)
```
- printSchema()로 구조 확인
- 컬럼명을 지정해주지않으면 자동으로 지정해줌(ex) c0, c1)
- 맨 첫 row는 컬럼명으로 생각된다.
- ```
flights2010 = spark.read.option("header","true").csv("/home/big/data/flights/csv/2010-summary.csv")
flights2010.printSchema()
flights2010.take(5)
```
- header를 지정해주니 맨 첫줄의 값이 컬럼명으로 지정된다.
- ```
flights2010.sort("count").explain()
```
- explain() : 실행계획을 볼 수 있음.
- 결과는 정렬될 것인데 그 과정을 나타낸 것임

이번에는 2015년도 비행운행정보 json파일을 가져오자.

```
f2015 = spark.read.format("json").load("/home/big/data/flights/json/2015-summary.json")
f2015.show()
```
- show() : 데이터베이스처럼 로우 x 컬럼 형태로 출력해줌(디폴트 20개)
- 다 보고싶다면. df.show(df)

f2015.createOrReplaceTempView("flights2015")
    
sqls = spark.sql("""
SELECT DEST_COUNTRY_NAME, COUNT(*)
FROM flights2015
GROUP BY DEST_COUNTRY_NAME
""")
sqls.show()

f2015라는 table을 만들어주고, spark.sql 안에 ANSI표준 쿼리를 이용해서 sql명령을 작성했다.
국가 이름을 기준으로 그룹핑해줌

```
dfs = f2015.groupBy("DEST_COUNTRY_NAME").count()
dfs.show()
```
- 위에 spark.sql을 사용했을 때와 결과가 같다.
- 쿼리에 대응되는 메소드를 사용할 수도 있다
```
sqls.explain()
dfs.explain()
```
- 두 개의 과정을 한번 살펴보면 완전 똑같다.

spark.sql("SELECT MAX(COUNT) FROM FLIGHTS2015").take(1)
    
from pyspark.sql.functions import max
f2015.select(max("count")).take(1)

pyspark.sql.functions모듈에 ansi표준 쿼리에 대한 내용들이 들어있다.
가장 큰 값인 행 하나만 가져오는것

f2015.select("DEST_COUNTRY_NAME").show(5)
    
spark.sql("SELECT DEST_COUNTRY_NAME FROM flights2015 LIMIT 5").show()

show(5)와 limit 5가 동일하게 쓰일 수 있음

spark.sql("SELECT DEST_COUNTRY_NAME, ORIGIN_COUNTRY_NAME FROM flights2015 LIMIT 5").show()
    
f2015.select("DEST_COUNTRY_NAME","ORIGIN_COUNTRY_NAME").show(5)

여러개의 컬럼을 가져올때는 ,(COMMA)를 이용

```
from pyspark.sql.functions import expr, col
f2015.select(expr("DEST_COUNTRY_NAME"), col("DEST_COUNTRY_NAME")).show(5)
```
- pyspark.sql.functions 모듈을 사용해보자.
- expr과 col은 동일하게 쓰이는 것을 확인할 수 있다.
- 그럼 과연 두 가지의 차이는 무엇일까?

f2015.select(expr("DEST_COUNTRY_NAME as destination")).show(5)
f2015.select(col("DEST_COUNTRY_NAME").alias("destination")).show(5)

expr에서는 as와 같은 표현식을 사용할 수 있다.
col은 말그대로 컬럼만 가져올 때 사용하는 것이다.

spark.sql("SELECT DEST_COUNTRY_NAME destination FROM flights2015 LIMIT 5").show()

spark.sql을 사용해 ansi표준쿼리로 위와 같은 코드를 짜보았다.

```
f2015.selectExpr("DEST_COUNTRY_NAME as destination").show(5)
```
- df.selectExpr()을 사용해도 select를 하면서 alias등 표현식을 사용할 수 있다.

f2015.selectExpr("*","(DEST_COUNTRY_NAME = ORIGIN_COUNTRY_NAME) as domestic_flight").show()

도착지와 출발지가 같은 값을 찾아서 국내선 컬럼을 만들 수도 있다.

spark.sql("SELECT AVG(COUNT), COUNT(DISTINCT(DEST_COUNTRY_NAME)) FROM flights2015").show()
    
f2015.selectExpr("AVG(COUNT)", "COUNT(DISTINCT(DEST_COUNTRY_NAME))").show()

# literal = 값 자체
from pyspark.sql.functions import lit
f2015.select(expr("*"), lit(1).alias("one")).show(5)
    
spark.sql("SELECT *, 1 as one FROM flights2015 LIMIT 5").show()

lit은 literal(값 자체)를 뜻한다.
단순히 1값이 들어가있는 컬럼을 만든것임

f2015.withColumn("DOMESTIC_FLIGHT", expr("DEST_COUNTRY_NAME = ORIGIN_COUNTRY_NAME")).show()

withColumn은 select * 과 같다.

f2015.withColumnRenamed("DEST_COUNTRY_NAME", "DESTINATION").show()

withColumnRenamed는 원본의 컬럼명을 바꿔주는 메서드

```
f2015.drop("count").show()
f2015.drop("count").columns
```
- drop()은 컬럼을 삭제
- .columns로 현재 있는 컬럼명들을 볼 수 있다.

f2015.withColumn("count2", col("count").cast("string")).summary()
f2015.withColumn("count2", col("count").cast("string")).show()
spark.sql("SELECT *, CAST(COUNT AS STRING) AS COUNT2 FROM FLIGHTS2015").show()

cast() : 컬럼을 복제하면서 속성을 바꿔줌(str)

f2015.filter(col("count") < 2).show(5)
f2015.where("count < 2").show(5)
spark.sql("SELECT * FROM flights2015 WHERE count < 2 LIMIT 5").show()

filter() : WHERE절과 같이 조건을 걸 수 있음

# WHERE가 동시에 실행된다.
f2015.where(col("count") < 2).where(col("ORIGIN_COUNTRY_NAME") != "Croatia").show(5)
spark.sql("SELECT * FROM FLIGHTS2015 WHERE COUNT < 2 AND ORIGIN_COUNTRY_NAME != 'Croatia' LIMIT 5").show()

WHERE절에서 AND조건을 사용하는것 처럼 여러 조건을 동시에 적용시킬 수 도 있다. where().where()

f2015.select("DEST_COUNTRY_NAME").distinct().count()
    
spark.sql("SELECT COUNT(DISTINCT(DEST_COUNTRY_NAME)) FROM FLIGHTS2015").show()

distinct()는 중복되는 값들을 제거해준다.
count()는 개수를 셀 때 사용

from pyspark.sql import Row
new_rows = [
    Row("Korea","Korea",5),
    Row("Korea","Wakanda",1)
]
rdd_rows = sc.parallelize(new_rows)
schema = f2015.schema
df_rows = spark.createDataFrame(rdd_rows, schema)
df_rows.show()

f2015의 구조(schema)를 가져와서 새로 만든 df_rows에도 적용할 수 있다.

# f2015와 df_rows를 union하고, count = 1이고 origin~ us가 아닌 데이터를 출력하자.
f2015.union(df_rows).where("count=1").where(col("ORIGIN_COUNTRY_NAME") != "United States").show()

union()으로 데이터프레임 두 개를 합친다.
그리고 조건 2가지는 where().where()로 해결

f2015.sort("count").show(f2015.count())
f2015.orderBy(col("count").asc()).show(f2015.count())
spark.sql("SELECT * FROM FLIGHTS2015 ORDER BY COUNT ASC").show(f2015.count())

count개수를 기준으로 오름차순으로 정렬한다.
내림차순으로 하고싶으면 desc로 설정

# DEST ~ 내림차순, COUNT는 오름차순 정렬 후 5개만 출력
f2015.orderBy(col("DEST_COUNTRY_NAME").desc(), col("count").asc()).show(5)
    
spark.sql("SELECT * FROM FLIGHTS2015 ORDER BY DEST_COUNTRY_NAME DESC, COUNT ASC LIMIT 5").show()

order by를 중첩해서 사용하는 방법

```
f2015.limit(5).show()
```
- .limit()도 사용할 수 있음

이번엔 새로운 데이터를 가지고 다뤄보았다.

retails = spark.read.format("csv").option("header","true").option("inferSchema", "true").load("/home/big/data/retails/2010-12-01.csv")
    
retails.printSchema()

printSchema()를 사용해 구조 확인

retails.createOrReplaceTempView("retails")
retails.show()
spark.sql("SELECT * FROM retails").show()

spark.sql방식도 사용하기 위해 테이블을 생성해준다.
테이블 확인

retails.where(col("InvoiceNo") != 536365).select("InvoiceNo", "Description").show(5)
    
retails.where("InvoiceNo <> 536365").show(5, False)

show(,False)를 하면 생략되어있는 내용까지 나온다.

from pyspark.sql.functions import instr
priceFilter = col("UnitPrice") > 600
descriptFilter = instr(retails.Description, "POSTAGE") >= 1
retails.where(retails.StockCode.isin("DOT")).where(priceFilter | descriptFilter).show()
    
spark.sql("""
SELECT * FROM retails 
WHERE StockCode in ('DOT')
AND (UnitPrice > 600 OR INSTR(Description, 'POSTAGE') >= 1)
""").show()

필터를 만들어서 조건에 필터를 적용
|는 or과 같음
instr부분은 Description에 POSTAGE라는 값이 있으면 인덱스를 알려줌

dotCodeFilter = col("StockCode") == "DOT"
priceFilter = col("UnitPrice") > 600
descriptFilter = instr(col("Description"), "POSTAGE") >= 1
    
retails.withColumn("isExpensive", dotCodeFilter & (priceFilter | descriptFilter)).where("isExpensive")\
.select("UnitPrice", "isExpensive").show(5)
    
spark.sql("""
SELECT UnitPrice, (StockCode = 'DOT' AND (UnitPrice > 600 OR INSTR(Description, 'POSTAGE') >= 1)) as isExpensive
FROM retails
WHERE (StockCode = 'DOT' AND (UnitPrice > 600 OR INSTR(Description, 'POSTAGE') >= 1))
""").show()

이것이 비싼 것인지 알려주는 isExpensive 컬럼을 추가했다.
withColumn은 새 컬럼을 추가할 때 사용
조건을 잘 확인해야함

# (현재 갯수 * 가격)^2 + 5
from pyspark.sql.functions import pow
quantity = pow(col("Quantity") * col("UnitPrice"), 2) + 5
retails.select(col("CustomerId"), quantity.alias("myQuantity")).show(5)
    
spark.sql("""
SELECT CustomerId, (POWER((Quantity * UnitPrice), 2) + 5) as myQuantity
FROM retails
LIMIT 5
""").show()

pyspark.sql.functions 모듈의 pow함수를 이용해 제곱을 할 수 있다.
일반 Query문에서는 POWER를 사용하면 제곱을 할 수 있다.

from pyspark.sql.functions import round, bround
retails.select(round(lit("2.5")), bround(lit("2.5")), lit("2.5")).show(5)
    
spark.sql('SELECT ROUND(2.5), BROUND(2.5) FROM retails').show(5)

round(), bround()를 사용해서 반올림, 내림을 할 수 있다.

retails.describe().show()
    
from pyspark.sql.functions import count, mean, stddev_pop, min, max
retails.select(count("UnitPrice"), mean("UnitPrice"), stddev_pop("UnitPrice"), min("UnitPrice"), max("UnitPrice")).show()

describe는 count, mean, stdev, min, max를 summary 해준다.
pyspark.sql.functions 모듈에서 이 함수들을 가져와 사용해도 된다.

from pyspark.sql.functions import monotonically_increasing_id
retails.select("*", monotonically_increasing_id()).show(5)

자동으로 숫자가 올라가는 monotonically_increasing_id()

```
from pyspark.sql.functions import initcap
retails.select(initcap(col("Description"))).show()
```
- 첫 글자만 대문자로 바꿔주는 initcap()
- 중략된 부분을 다 보고싶다면 show(,False)

from pyspark.sql.functions import lower, upper
retails.select(col("Description"), lower(col("Description")), upper(col("Description"))).show(5, False)

소문자로 만드는 lower(), 대문자로 만드는 upper()

from pyspark.sql.functions import ltrim, rtrim, trim, lpad, rpad
retails.select(ltrim(lit('     hello     ')).alias("ltrim"), rtrim(lit('     hello     ')).alias("rtrim"), trim(lit("     hello     ")).alias("trim"), lpad(lit("hello"), 10, '*'), rpad(lit("hello"), 10, '*')).show(1)
    
spark.sql("""
SELECT LTRIM('     hello     ') as ltrim, RTRIM('     hello     ') as rtrim, TRIM('     hello     ') as trim, LPAD('hello', 10, '*') as lpad, RPAD('hello', 10, '*') as rpad
FROM retails
""").show(1)

ltrim() : 왼쪽 공백 없애기
rtrim() : 오른쪽 공백 없애기
trim() : 양쪽 공백 없애기
trim을 할 때는 tap(\t)은 지워지지 않는다!
lpad() : 오른쪽으로 정렬 후 왼쪽 공백 채우기
rpad() : 왼쪽으로 정렬 후 오른쪽 공백 채우기\

from pyspark.sql.functions import regexp_replace
regex_str = "BLACK|WHITE|RED|GREEN|BLUE"
retails.select(regexp_replace(col("Description"), regex_str, "COLOR").alias("color"), col("Description")).show(5, False)
    
spark.sql("""
SELECT REGEXP_REPLACE(Description, 'BLACK|WHITE|RED|GREEN|BLUE', 'COLOR') as color, Description
from retails
""").show(5, False)

regexp_replace() : 컬럼 선택 후 정규식에 맞게 선택 해서 새 컬럼을 만들어줌
BLAKC, WHITE, RED, GREEN, BLUE라는 값이 Description이라는 열의 값에 존재한다면 color로 바꿔달라는 정규식을 사용

from pyspark.sql.functions import translate
retails.select(translate(col("Description"), "ABCD", "1234"), col("Description")).show(5, False)

regexp_replace 정규식과 비슷한 기능의 translate()
A는 1, B는 2, C는 3, D는 4로 변하는 것을 확인할 수 있다.

from pyspark.sql.functions import regexp_extract
extract_str = "(BLACK|WHITE|RED|GREEN|BLUE)"
retails.select(regexp_extract(col("Description"), extract_str, 1).alias("extract"), col("Description")).show(5, False)

해당 패턴(자바 정규식 형태)에 맞는 값을 가져오는 regexp_extract()
처음에 찾은놈을 하나를 가져와서 뒤에오는 놈은 값이 반환되지 않는다.

containsBlack = instr(col("Description"), "BLACK") >= 1
containsWhite = instr(col("Description"), "WHITE") >= 1
retails.withColumn("hasBlackWhite", containsBlack | containsWhite).select("Description", "hasBlackWhite").show(5, False)

Description 컬럼에 BLACK, WHITE값이 존재했을 때의 조건을 만들어서 새로운 컬럼을 만드는 withColumn()를 사용했다.

이번에는 날짜를 다뤄보자.

from pyspark.sql.functions import current_date, current_timestamp
date_df = spark.range(10).withColumn("today_date", current_date()).withColumn("now_timestamp", current_timestamp())
date_df.show()

current_date(), current_timestamp() : 현재 날짜(년,월,일)과 현재 시간(년,월,일,시,분,초)를 가져오는 메서드

date_df.createOrReplaceTempView("dateTable")
spark.sql("SELECT * FROM dateTable").show()

Table을 생성 후 확인

from pyspark.sql.functions import date_add, date_sub
date_df.select(date_sub(col("today_date"),5), date_add(col("today_date"), 5)).show(1)
    
spark.sql("SELECT DATE_SUB(today_date, 5) as sub, DATE_ADD(today_date, 5) as add FROM dateTable").show(1)

date_add() : 날짜를 더하기
date_sub() : 날짜를 빼기

from pyspark.sql.functions import datediff, months_between, to_date
    
date_df.withColumn("week_ago", date_sub(col("today_date"), 7)).select(datediff(col("week_ago"), col("today_date"))).show(1)
    
date_df.select(to_date(lit("2022-03-15")).alias("now"), to_date(lit("2022-05-13")).alias("end")).select(months_between(col("now"), col("end"))).show(1)

datediff(): 두 개의 날짜의 일수 차이를 구하는 메서드
months_between() : 두 날짜의 개월 수 차이를 출력
1.9~~ 로 약 2달 차이가 나는 것을 확인할 수 있다.

```
date_df.select(to_date(lit('2022-12-32'))).show(1)
```
- 만약 2022-12-32일을 선택하면 null값이 리턴된다.

# simpleDateFormat (java)
dateFormat = 'yyyy-dd-MM'
clean_date = spark.range(1).select(to_date(lit('2022-11-12'), dateFormat).alias('date'))
clean_date.show()

날짜를 년-일-월 형식으로 포맷했기 때문에 실제 날짜가 2022-12-11로 나온다.

Null 관련 함수들을 다뤄보자.

null_df = sc.parallelize(
[
    Row(name='Kang', phone='010-0000-0000', address='Seoul'),
    Row(name='Shin', phone='010-1111-1111', address=None),
    Row(name='You', phone=None, address=None)
]
).toDF()
null_df.show()
    
null_df.createOrReplaceTempView("nullTable")
spark.sql("SELECT * FROM nullT")

Row로 한 줄 객체를 만들어서 그 객체 3개를 RDD로 만들었다.
그리고 그 RDD를 .toDF()를 사용해 DataFrame으로 만들었다.
그 데이터프레임을 사용해 Table을 만들고 그것을 SQL문으로 조회했다.

```
from pyspark.sql.functions import coalesce
null_df.select(coalesce(col("address"), col("phone")).alias("coalesce")).show()
```
- coalesce() : null이 아닌 첫 번째 컬럼 값을 출력한다.
- 그래서 address에 값이 null이 아니면 값을 가져오고, 만약 null이라면 phone의 값을 가져온다.
```
# coalesce외에 null과 관련된 함수들
spark.sql("""
SELECT IFNULL(NULL, 'VALUE'), NULLIF('SAME','SAME'), NULLIF('SAME','NOTSAME'), NVL(NULL, 'VALUE'), NVL2(NULL, 'VALUE', 'VALUE2'), NVL2('NOTNULL', 'VALUE', 'VALUE2')
FROM nullTable
""").show(1)
```
- 그 외에 null과 관련된 함수들
  - ifnull : 첫 번째 값이 null이면 두번째 값 return
  - nullif : 두 값이 같으면 null
  - nvl : 첫 번째 값이 null이면 두 번째 값 return
  - nvl2 : 첫 번째 값이 null이면 두 번째 값, 아니면 세번째 값 return

# DataFrameNaFunction : drop
null_df.count() # 3
null_df.na.drop().count() # 1
null_df.na.drop('any').count() # 1
null_df.na.drop('all').count() # 3
null_df.na.drop('all', subset=['phone']).count() # 2
null_df.na.drop('all', subset=['address']).count() # 1
null_df.na.drop('all', subset=['phone', 'address']).count() # 2
    

na.drop() : null값이 존재하면 삭제?(제외) 해버린다.
na.drop() 안에는 'all'이나 'any'가 들어갈 수 있다.
na.drop('any') : null 값이 하나라도 존재한다면 삭제
na.drop('all') : 모든 값이 null값이면 삭제
subset=['컬럼명'] 속성을 사용해서 특정 컬럼 값이 null 값인 것을 삭제할 수 있다.

# DataFrameNaFunction : fill
null_df.na.fill('n/a').show()
null_df.na.fill('n/a', subset=['name','address']).show()
    
fill_cols_val = {"phone": "070-000-0000", "address":"street"}
null_df.na.fill(fill_cols_val).show()

na.fill() : null값이 존재하면 지정한 값으로 채워주기
dictionary형 객체를 이용해서 한번에 여러 개의 값들을 채울 수도 있다.

# DataFrameNaFunction : replace
null_df.na.replace(["Seoul"], ["서울"], "address").show()

기존 Seoul을 서울로 변경

구조체 : dataframe 안에 dataframe

retails.selectExpr("(Description, InvoiceNo) as complex", "*").show(5, False)

from pyspark.sql.functions import struct
complex_df = retails.select(struct("Description", "InvoiceNo").alias("complex"))
complex_df.createOrReplaceTempView("complexdf")
spark.sql('SELECT * FROM complexdf').show()

struct() : 컴플렉스 타입으로 컬럼들을 묶어버림
Description과 InvoiceNo을 합친 데이터프레임
complexdf라는 테이블을 생성했다.

complex_df.select("complex").show(5, False)
# Description만 가져오기
complex_df.select("complex.Description").show(5, False)
# InvoiceNo만 가져오기
complex_df.select(col("complex").getField("InvoiceNo")).show(5, False)

getField() : 특정 컬럼을 가져오는 함수

```
complex_df.select("complex.*").show(5,False)
```
- "컬럼명.*" 을 사용하면 묶여있던 컬럼들이 다 조회된다.

다시 기존 데이터를 사용해서 배열 가지고 놀아보자.

여기서는 spark자체의 배열 함수를 사용하기 때문에 sql문으로 따로 사용할 수 없다고한다.

from pyspark.sql.functions import split
retails.select(split(col("Description"), " ")).show(5, False)
retails.select(split(col("Description"), " ").alias("arrays")).selectExpr("arrays[0]").show(5)

split() : 설정한 것을 기준으로 자름(여기서는 공백)
자른 것들 중 첫 값을 가져올 수 있다.

```
from pyspark.sql.functions import size
retails.select(size(split(col("Description"), " ")).alias("array_size")).show(5)
```
- size() : 해당 배열의 길이(갯수)를 가져오는 함수
- 공백을 기준으로 값을 나누고 그 배열의 길이를 출력했다.
```
from pyspark.sql.functions import array_contains
retails.select(array_contains(split(col("Description"), " "), "WHITE")).show(5)
```
- array_contains() : 배열에 해당 값이 존재하는지 확인하는 함수
- WHITE란 값이 존재하는지 안하는지 확인할 수 있다.

from pyspark.sql.functions import create_map
    
retails.select(create_map(col("StockCode"), col("Description")).alias("complex_map")).show(5, False)
    
retails.select(create_map(col("StockCode"), col("Description")).alias("complex_map")).selectExpr("complex_map['84406B']").show()

create_map() : 키와 밸류의 한쌍으로 만들어주는 함수
특정 키값(84406B)을 넣어서 데이터를 조회하면 해당되는 value값이 나온다.

사용자 정의함수
- ```
def power3(value):
    return value**3
    
# user define function
from pyspark.sql.functions import udf
pow3 = udf(power3)
    
user_def_df = spark.range(5).toDF("num")
user_def_df.select(pow3(col("num")), col("num")).show()
```
  - 넣은 인수를 3제곱한 값이 나오게하는 함수를 power3를 만들었다.
  - udf() : 이 함수는 사용자 정의 함수를 만들어주는 함수
  - 그래서 udf를 이용해 pow3라는 이름으로 세제곱시키는 함수를 등록해줬다.
  - 0부터 4까지 수를 만들어 DF를 만들어주고 pow3가 제대로 작동하는지 확인
  - spark를 껐다 키면 함수가 사라진다.

모든 retails 데이터를 가져와서 묶어서 또 다뤄보자.
- ```
retails_all = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/home/big/data/retails/*.csv")
```
  - load할 때 asterisk(*)를 사용해서 모두 불러옴
- ```
retails_all.count()
```
  - 총 541909개의 Row가 있는 것을 확인
- ```
retails_all.printSchema()
```
  - 구조는 이러하다.
- ```
retails_all.createOrReplaceTempView("retailsAll")
```
  - retailsAll 이라는 테이블을 생성해주자.
  - retails_all. 을 적고 탭을 두번 누르면 사용할 수 있는 함수가 모두 나온다.

여러가지 조회와 집계 함수 등을 다뤄보자.

from pyspark.sql.functions import count
retails_all.select(count("StockCode")).show()
spark.sql("SELECT COUNT(*) FROM retailsALL").show()

똑같이 데이터가 541909개인 것을 확인할 수 있다.

from pyspark.sql.functions import countDistinct
retails_all.select(countDistinct("*").alias("countDistinct")).show()
spark.sql("SELECT COUNT(DISTINCT(*))) AS COUNTDISTINCT FROM retailsAll").show()

countDistinct() : 중복되는 값을 제하고 개수를 센다.
중복을 없애고 데이터가 약 40만개로 줄은 것을 확인할 수 있다.

from pyspark.sql.functions import first, last
retails_all.select(first("StockCode"), last("StockCode")).show()

first() : 첫 값 반환
last() : 마지막 값 반환

from pyspark.sql.functions import min, max
retails_all.select(min("Quantity"), max("Quantity")).show()

min() : 최소 값
max() : 최대 값

from pyspark.sql.functions import sumDistinct
retails_all.select(sumDistinct("Quantity")).show()
spark.sql("SELECT SUM(DISTINCT(Quantity)) FROM retailsALL").show()

sumDistinct() : 중복값 빼고 다 더해버리기

from pyspark.sql.functions import count, sum, avg, expr
retails_all.select(count("Quantity").alias("countQuantity"), sum("Quantity").alias("sumQuantity"), avg("Quantity").alias("avgQuantity"), expr("mean(Quantity)").alias("meanQuantity")).show()

avg() : 평균을 구하는 함수
sum() : 값들을 더하는 함수
expr() : 표현식을 가능하게 하는 함수

from pyspark.sql.functions import var_pop, stddev_pop, var_samp, stddev_samp
    
retails_all.select(var_pop("Quantity").alias("varpop"), stddev_pop("Quantity").alias("stddevpop"), var_samp("Quantity").alias("varsamp"), stddev_samp("Quantity").alias("stddevsamp")).show()

분산, 표준편차
var_pop : 모집단 분산(모분산)
stddev_pop : 모집단 표준편차(모표준편차)
var_samp : 표본 분산
stddev_samp : 표본 표준편차

모, 표준의 차이가 엄청나게 크지 않다.

from pyspark.sql.functions import corr, covar_pop, covar_samp
    
retails_all.select(corr("InvoiceNo", "Quantity").alias("corr"), covar_pop("InvoiceNo", "Quantity").alias("pop"), covar_samp("InvoiceNo", "Quantity").alias("samp")).show()

공분산, 상관관계
corr: 피어슨 상관관계 (DataFrame.corr과 같음)
covar_pop : 모집단 공분산
covar_samp : 표본집단 공분산

from pyspark.sql.functions import collect_set, collect_list, agg
retails_all.agg(collect_set("Country"), collect_list("Country")).show()

agg : aggregate
collect_set : 중복 X
collect_list : 중복 O

retails_all.groupBy("InvoiceNo","CustomerId").count().show()
    
spark.sql("SELECT InvoiceNo, CustomerId, COUNT(*) FROM retailsAll GROUP BY InvoiceNo, CustomerId").show()

groupBy() : 그룹으로 묶어준다.
여기에서는 InvoiceNo와 CustomerId로 묶어서 개수를 세주었다.

retails_all.groupBy("InvoiceNo").agg(count("Quantity").alias("quan"), expr("count(Quantity)")).show()

송장번호별로 그룹지어서 quantity를 세기

from pyspark.sql.functions import to_date, col
    
date_df = retails_all.withColumn("date", to_date(col("InvoiceDate"), "yyyy-MM-dd HH:mm:ss"))
    
date_df.createOrReplaceTempView("date_df")
    
from pyspark.sql.window import Window
from pyspark.sql.functions import desc
    
window_function = Window.partitionBy("CustomerId", "date").orderBy(desc("Quantity")).rowsBetween(Window.unboundedPreceding, Window.currentRow)
    
max_quantity = max(col("Quantity")).over(window_function)
    
from pyspark.sql.functions import dense_rank, rank
    
win_dense_rank = dense_rank().over(window_function)
win_rank = rank().over(window_function)
    
date_df.where("CustomerId IS NOT NULL").orderBy("CustomerId").select(col("CustomerId"), col("date"), col("Quantity"), win_rank.alias("quantityRank"), win_dense_rank.alias("quantityDense"), max_quantity.alias("quantityMax")).show(5,False)

2022 196
2021 22

2022

[Linux]부트캠프 - 파일 및 폴더 생성

2022-12-21 1 분 소요

파일 및 폴더 생성

[Linux]부트캠프 - 파일 시스템 탐색

2022-12-20 1 분 소요

파일 시스템 탐색

[Linux]부트캠프 - 도움말(man)

2022-12-15 최대 1 분 소요

도움말(man -> manual)

[Linux]부트캠프 - 명령어 기초

2022-12-14 1 분 소요

명령어 기초

[Linux]부트캠프 - 시작

2022-12-13 1 분 소요

유닉스(Unix)

[Swift]특정 코드 지연(delay) 후에 실행시키기

2022-11-17 최대 1 분 소요

특정 코드 지연 실행 - DispatchQueue.main.asyncAfter(deadline: )

[Swift]Naming Conventions, Commenting, Print Statement

2022-11-14 최대 1 분 소요

Naming Conventions

[Mac]안드로이드 폰과 맥북 USB 테더링 성공

2022-11-13 최대 1 분 소요

안드로이드 폰과 맥북에어 M1 USB 테더링 성공

[Xcode]xcode 시뮬레이터를 풀스크린으로 사용하는 방법

2022-11-02 최대 1 분 소요

Simulator 풀 스크린 사용 방법

[BOJ/백준-Python]10807번 - 개수 세기

2022-10-28 1 분 소요

10807번 - 개수 세기

[프로그래머스]Swift - Lv.1 풀이 코드 모음

2022-10-24 최대 1 분 소요

프로그래머스 Lv.1 풀이 코드 모음

[프로그래머스]파이썬 - Lv.1 풀이 코드 모음

2022-09-14 6 분 소요

프로그래머스 Lv.1 풀이 코드 모음

[BOJ/백준-Python]11047번 - 동전 0

2022-08-22 1 분 소요

11047번 - 동전 0

[BOJ/백준-Python]11659번 - 구간 합 구하기 4

2022-08-21 1 분 소요

11659번 - 구간 합 구하기 4

[BOJ/백준-Python]14888번 - 연산자 끼워넣기

2022-08-20 2 분 소요

14888번 - 연산자 끼워넣기

[BOJ/백준-Python]9184번 - 신나는 함수 실행

2022-08-19 1 분 소요

9184번 - 신나는 함수 실행

[BOJ/백준-Python]24416번 - 알고리즘 수업 - 피보나치수 1

2022-08-18 1 분 소요

24416번 - 알고리즘 수업 - 피보나치 수 1

[BOJ/백준-Python]2580번 - 스도쿠

2022-08-17 4 분 소요

2580번 - 스도쿠

[BOJ/백준-Python]9663번 - N-Queen

2022-08-16 1 분 소요

9663번 - N-Queen

[BOJ/백준-Python]15652번 - N과 M (4)

2022-08-15 1 분 소요

15652번 - N과 M (4)

[BOJ/백준-Python]15651번 - N과 M (3)

2022-08-14 1 분 소요

15651번 - N과 M (3)

[BOJ/백준-Python]15650번 - N과 M (2)

2022-08-13 1 분 소요

15650번 - N과 M (2)

[BOJ/백준-Python]25305번 - 커트라인

2022-08-12 1 분 소요

25305번 - 커트라인

[BOJ/백준-Python]25304번 - 영수증

2022-08-11 1 분 소요

25304번 - 영수증

[BOJ/백준-Python]3003번 - 킹, 퀸, 룩, 비숍, 나이트, 폰

2022-08-10 1 분 소요

3003번 - 킹, 퀸, 룩, 비숍, 나이트, 폰

[BOJ/백준-Python]15649번 - N과 M (1)

2022-08-09 1 분 소요

15649번 - N과 M (1)

[BOJ/백준-Python]2004번 - 조합 0의 개수

2022-08-08 1 분 소요

2004번 - 조합 0의 개수

[BOJ/백준-Python]1676번 - 팩토리얼 0의 개수

2022-08-07 최대 1 분 소요

1676번 - 팩토리얼 0의 개수

[BOJ/백준-Python]9375번 - 패션왕 신해빈

2022-08-06 2 분 소요

9375번 - 패션왕 신해빈

[BOJ/백준-Python]1010번 - 다리 놓기

2022-08-05 1 분 소요

1010번 - 다리 놓기

[BOJ/백준-Python]11051번 - 이항 계수 2

2022-08-04 1 분 소요

11051번 - 이항 계수 2

[BOJ/백준-Python]11050번 - 이항 계수 1

2022-08-03 1 분 소요

11050번 - 이항 계수 1

[BOJ/백준-Python]3036번 - 링

2022-08-02 2 분 소요

3036번 - 링

[BOJ/백준-Python]2981번 - 검문

2022-08-01 4 분 소요

2981번 - 검문

[BOJ/백준-Python]1934번 - 최소공배수

2022-07-31 1 분 소요

1934번 - 최소공배수

[BOJ/백준-Python]2609번 - 최대공약수와 최소공배수

2022-07-30 최대 1 분 소요

2609번 - 최대공약수와 최소공배수

[BOJ/백준-Python]1037번 - 약수

2022-07-29 1 분 소요

1037번 - 약수

[BOJ/백준-Python]5086번 - 배수와 약수

2022-07-28 1 분 소요

5086번 - 배수와 약수

[BOJ/백준-Python]1358번 - 하키

2022-07-27 3 분 소요

1358번 - 하키

[BOJ/백준-Python]1004번 - 어린 왕자

2022-07-26 3 분 소요

1004번 - 어린 왕자

[BOJ/백준-Python]1002번 - 터렛

2022-07-24 2 분 소요

1002번 - 터렛

[BOJ/백준-Python]3053번 - 택시 기하학

2022-07-23 1 분 소요

3053번 - 택시 기하학

[BOJ/백준-Python]2477번 - 참외밭

2022-07-22 3 분 소요

2477번 - 참외밭

[BOJ/백준-Python]4153번 - 직각삼각형

2022-07-21 1 분 소요

4153번 - 직각삼각형

[BOJ/백준-Python]3009번 - 네 번째 점

2022-07-20 1 분 소요

3009번 - 네 번째 점

[BOJ/백준-Python]1085번 - 직사각형에서 탈출

2022-07-19 2 분 소요

1085번 - 직사각형에서 탈출

[BOJ/백준-Python]11478번 - 서로 다른 부분 문자열의 개수

2022-07-18 1 분 소요

11478번 - 서로 다른 부분 문자열의 개수

[BOJ/백준-Python]1269번 - 대칭 차집합

2022-07-17 1 분 소요

1269번 - 대칭 차집합

[BOJ/백준-Python]1764번 - 듣보잡

2022-07-15 1 분 소요

1764번 - 듣보잡

[BOJ/백준-Python]10816번 - 숫자 카드 2

2022-07-14 1 분 소요

10816번 - 숫자 카드 2

[BOJ/백준-Python]1620번 - 나는야 포켓몬 마스터 이다솜

2022-07-13 4 분 소요

1620번 - 나는야 포켓몬 마스터 이다솜

[BOJ/백준-Python]14425번 - 문자열 집합

2022-07-12 1 분 소요

14425번 - 문자열 집합

[BOJ/백준-Python]10815번 - 숫자 카드

2022-07-10 1 분 소요

10815번 - 숫자 카드

[BOJ/백준-Python]18870번 - 좌표 압축

2022-07-09 1 분 소요

18870번 - 좌표 압축

[BOJ/백준-Python]10814번 - 나이순 정렬

2022-07-08 1 분 소요

10814번 - 나이순 정렬

[BOJ/백준-Python]1181번 - 단어 정렬

2022-07-07 1 분 소요

1181번 - 단어 정렬

[BOJ/백준-Python]11651번 - 좌표 정렬하기2

2022-07-06 1 분 소요

11651번 - 좌표 정렬하기 2

[BOJ/백준-Python]11650번 - 좌표 정렬하기

2022-07-05 2 분 소요

11650번 - 좌표 정렬하기

[BOJ/백준-Python]1427번 - 소트인사이드

2022-07-04 1 분 소요

1427번 - 소트인사이드

[BOJ/백준-Python]2108번 - 통계학

2022-07-02 2 분 소요

2108번 - 통계학

[BOJ/백준-Python]10989번 - 수 정렬하기 3

2022-06-30 1 분 소요

10989번 - 수 정렬하기 3

[BOJ/백준-Python]2751번 - 수 정렬하기 2

2022-06-29 최대 1 분 소요

2751번 - 수 정렬하기 2

[BOJ/백준-Python]2750번 - 수 정렬하기

2022-06-28 1 분 소요

2750번 - 수 정렬하기

[잡동사니]22년 부산 먹부림 기록

2022-06-28 최대 1 분 소요

22.06.25 ~ 27 부산 먹부림 기록

[BOJ/백준-Python]1436번 - 영화감독 숌

2022-06-24 2 분 소요

1436번 - 영화감독 숌

[BOJ/백준-Python]1018번 - 체스판 다시 칠하기

2022-06-23 4 분 소요

1018번 - 체스판 다시 칠하기

[BOJ/백준-Python]7568번 - 덩치

2022-06-22 2 분 소요

7568번 - 덩치

[BOJ/백준-Python]2231번 - 분해합

2022-06-21 1 분 소요

2231번 - 분해합

[BOJ/백준-Python]2798번 - 블랙잭

2022-06-20 3 분 소요

2798번 - 블랙잭

[BOJ/백준-Python]11729번 - 하노이 탑 이동 순서

2022-06-19 4 분 소요

11729번 - 하노이 탑 이동 순서

[BOJ/백준-Python]2447번 - 별 찍기 - 10

2022-06-18 3 분 소요

2447번 - 별 찍기 - 10

[BOJ/백준-Python]17478번 - 재귀함수가 뭔가요?

2022-06-17 4 분 소요

17478번 - 재귀함수가 뭔가요?

[BOJ/백준-Python]10870번 - 피보나치 수 5

2022-06-16 1 분 소요

10870번 - 피보나치 수 5

[HackerRank(해커랭크)/SQL]내가 푼 MySQL 쿼리 기록 - 3

2022-06-15 1 분 소요

[BOJ/백준-Python]10872번 - 팩토리얼

2022-06-15 1 분 소요

10872번 - 팩토리얼

[HackerRank(해커랭크)/SQL]내가 푼 MySQL 쿼리 기록 - 2

2022-06-14 최대 1 분 소요

[BOJ/백준-Python]9020번 - 골드바흐의 추측

2022-06-14 2 분 소요

9020번 - 골드바흐의 추측

[BOJ/백준-Python]4948번 - 베르트랑 공준

2022-06-13 2 분 소요

4948번 - 베르트랑 공준

[BOJ/백준-Python]1929번 - 소수 구하기

2022-06-12 1 분 소요

1929번 - 소수 구하기

[HackerRank(해커랭크)/SQL]내가 푼 MySQL 쿼리 기록 - 1

2022-06-11 1 분 소요

[BOJ/백준-Python]11653번 - 소인수분해

2022-06-11 1 분 소요

11653번 - 소인수분해

[BOJ/백준-Python]2581번 - 소수

2022-06-10 1 분 소요

2581번 - 소수

[BOJ/백준-Python]1978번 - 소수 찾기

2022-06-09 1 분 소요

1978번 - 소수 찾기

[BOJ/백준-Python]10757번 - 큰 수 A+B

2022-06-08 최대 1 분 소요

10757번 - 큰 수 A+B

[BOJ/백준-Python]2839번 - 설탕 배달

2022-06-06 2 분 소요

2839번 - 설탕 배달

[BOJ/백준-Python]2775번 - 부녀회장이 될테야

2022-06-05 2 분 소요

2775번 - 부녀회장이 될테야

[BOJ/백준-Python]10250번 - ACM 호텔

2022-06-04 4 분 소요

10250번 - ACM 호텔

[BOJ/백준-Python]2869번 - 달팽이는 올라가고 싶다

2022-06-03 2 분 소요

2869번 - 달팽이는 올라가고 싶다

[BOJ/백준-Python]1193번 - 분수찾기

2022-06-02 4 분 소요

1193번 - 분수찾기

[BOJ/백준-Python]2292번 - 벌집

2022-06-01 1 분 소요

2292번 - 벌집

[BOJ/백준-Python]1712번 - 손익분기점

2022-05-31 2 분 소요

1712번 - 손익분기점

[BOJ/백준-Python]1316번 - 그룹 단어 체커

2022-05-31 2 분 소요

1316번 - 그룹 단어 체커

[BOJ/백준-Python]2941번 - 크로아티아 알파벳

2022-05-30 1 분 소요

2941번 - 크로아티아 알파벳

[BOJ/백준-Python]5622번 - 다이얼

2022-05-29 2 분 소요

5622번 - 다이얼

[BOJ/백준-Python]2908번 - 상수

2022-05-28 1 분 소요

2908번 - 상수

[BOJ/백준-Python]1152번 - 단어의 개수

2022-05-27 1 분 소요

1152번 - 단어의 개수

[BOJ/백준-Python]1157번 - 단어 공부

2022-05-26 2 분 소요

1157번 - 단어 공부

[BOJ/백준-Python]2675번 - 문자열 반복

2022-05-25 1 분 소요

2675번 - 문자열 반복

[BOJ/백준-Python]10809번 - 알파벳 찾기

2022-05-24 1 분 소요

10809번 - 알파벳 찾기

[BOJ/백준-Python]11720번 - 숫자의 합

2022-05-23 1 분 소요

11720번 - 숫자의 합

[BOJ/백준-Python]11654번 - 아스키 코드

2022-05-22 1 분 소요

11654번 - 아스키 코드

[BOJ/백준-Python]1065번 - 한수

2022-05-20 1 분 소요

1065번 - 한수

[BOJ/백준-Python]4673번 - 셀프 넘버

2022-05-19 2 분 소요

4673번 - 셀프 넘버

[BOJ/백준-Python]15596번 - 정수 N개의 합

2022-05-18 1 분 소요

15596번 - 정수 N개의 합

[BOJ/백준-Python]4344번 - 평균은 넘겠지

2022-05-17 2 분 소요

4344번 - 평균은 넘겠지

[BOJ/백준-Python]8958번 - OX퀴즈

2022-05-16 1 분 소요

8958번 - OX퀴즈

[BOJ/백준-Python]25083번 - 새싹

2022-05-15 최대 1 분 소요

25083번 - 새싹

[Spark]파이프라인 만들기 코드 요약

2022-03-17 3 분 소요

Spark Bigdata Pipeline

[Spark]스파크 복습 - 4(Streaming/Mlib/번외/파이프라인)

2022-03-17 8 분 소요

Spark 4일차

[Spark]스파크 복습 - 3(DataFrame/Spark SQL)

2022-03-16 2 분 소요

Spark 3일차

[Spark]스파크 복습 - 2(DataFrame/Spark SQL)

2022-03-15 10 분 소요

Spark 2일차

[BOJ/백준-Python]1546번 - 평균

2022-03-15 1 분 소요

1546번 - 평균

[Spark]스파크 복습 - 1(RDD)

2022-03-14 4 분 소요

Spark 1일차

[Spark]하둡과 스파크 개념/설치

2022-03-14 5 분 소요

Hadoop🐘

[BOJ/백준-Python]3052번 - 나머지

2022-03-14 1 분 소요

3052번 - 나머지

[BOJ/백준-Python]2577번 - 숫자의 개수

2022-03-12 1 분 소요

2577번 - 숫자의 개수

[BOJ/백준-Python]2562번 - 최댓값

2022-03-12 1 분 소요

2562번 - 최댓값

[BOJ/백준-Python]10818번 - 최소, 최대

2022-03-12 최대 1 분 소요

10818번 - 최소, 최대

[Linux]Ubuntu 기초

2022-03-11 5 분 소요

Linux

[MongDB]조회문제 숙제 풀이

2022-03-11 3 분 소요

MongoDB 조회 문제

[MongDB]MongoDB 강의 내용 정리

2022-03-10 10 분 소요

MongoDB

[BOJ/백준-Python]1110번 - 더하기 사이클

2022-03-09 2 분 소요

1110번 - 더하기 사이클

[BOJ/백준-Python]10951번 - A+B - 4

2022-03-09 최대 1 분 소요

10951번 - A+B - 4

[Oracle]오라클 강의내용 복습 3일차

2022-03-08 7 분 소요

Oracle 3️⃣

[Oracle]오라클 문제만들기 숙제

2022-03-08 2 분 소요

ORACLE 연습용 문제 만들기 숙제

[BOJ/백준-Python]10952번 - A+B - 5

2022-03-08 1 분 소요

10952번 - A+B - 5

[Oracle]오라클 강의내용 복습 2일차

2022-03-07 16 분 소요

Oracle 2️⃣

[BOJ/백준-Python]2480번 - 주사위 세개

2022-03-07 2 분 소요

2480번 - 주사위 세개

[Oracle]오라클 강의내용 복습 1일차

2022-03-04 9 분 소요

Oracle Day1️⃣

[ML/DL]TensorFlow 머신/딥러닝 기초 복습

2022-03-03 11 분 소요

Tensorflow

[ML]sklearn 머신러닝 기초 및 복습

2022-03-02 20 분 소요

Big Data

[BOJ/백준-Python]2525번 - 오븐 시계

2022-02-15 2 분 소요

2525번 - 오븐 시계

[BOJ/백준-Python]10871번 - X보다 작은 수

2022-02-13 1 분 소요

10871번 - X보다 작은 수

[BOJ/백준-Python]2439번 - 별 찍기 - 2

2022-02-13 1 분 소요

2439번 - 별 찍기 - 2

[BOJ/백준-Python]2438번 - 별 찍기 - 1

2022-02-13 최대 1 분 소요

2438번 - 별 찍기 - 1

[BOJ/백준-Python]11022번 - A+B - 8

2022-02-13 1 분 소요

11022번 - A+B - 8

[BOJ/백준-Python]11021번 - A+B - 7

2022-02-13 1 분 소요

11021번 - A+B - 7

[BOJ/백준-Python]2742번 - 기찍 N

2022-02-13 최대 1 분 소요

2742번 - 기찍 N

[BOJ/백준-Python]2741번 - N 찍기

2022-02-13 최대 1 분 소요

2741번 - N 찍기

[BOJ/백준-Python]15552번 - 빠른 A+B

2022-02-12 1 분 소요

15552번 - 빠른 A+B

[BOJ/백준-Python]8393번 - 합

2022-02-12 최대 1 분 소요

8393번 - 합

[BOJ/백준-Python]10950번 - A+B - 3

2022-02-12 최대 1 분 소요

10950번 - A+B - 3

[BOJ/백준-Python]2739번 - 구구단

2022-02-12 최대 1 분 소요

9️⃣ 2739번 - 구구단

[BOJ/백준-Python]2884번 - 알람 시계

2022-02-11 2 분 소요

2884번 - 알람 시계

파이썬을 이용한 크롤링 연습 2

2022-02-10 8 분 소요

[BOJ/백준-Python]14681번 - 사분면 고르기

2022-02-10 1 분 소요

14681번 - 사분면 고르기

파이썬을 이용한 크롤링 연습 1

2022-02-09 9 분 소요

⛏크롤링(Crawling)

[BOJ/백준-Python]2753번 - 윤년

2022-02-09 1 분 소요

2753번 - 윤년

[Django]장고 복습 4

2022-02-08 8 분 소요

Django 복습 4️⃣

[Django]장고 복습 3

2022-02-07 8 분 소요

Django 복습 3️⃣

[BOJ/백준-Python]9498번 - 시험 성적

2022-02-07 1 분 소요

💯 9498번 - 시험 성적

[BOJ/백준-Python]1330번 - 두 수 비교하기

2022-02-06 최대 1 분 소요

1330번 - 두 수 비교하기

[BOJ/백준-Python]2588번 - 곱셈

2022-02-06 2 분 소요

✖ 2588번 - 곱셈

[BOJ/백준-Python]10430번 - 나머지

2022-02-05 최대 1 분 소요

➗ 10430번 - 나머지

[Django]장고 복습 2

2022-02-04 8 분 소요

Django 복습 2️⃣

[Django]장고 복습 1

2022-02-04 4 분 소요

Django 복습 1

[MySQL]기초 복습

2022-02-04 25 분 소요

MySQL 복습!

[BOJ/백준-Python]10926번 - ??!

2022-02-03 최대 1 분 소요

⁉10926번 - ??!

[BOJ/백준-Python]1008번 - A/B

2022-02-03 1 분 소요

🆎1008번 - A/B

[BOJ/백준-Python]18108번 - 1998년생인 내가 태국에서는 2541년생?!

2022-02-03 최대 1 분 소요

👩‍🦲 18108번 - 1998년생인 내가 태국에서는 2541년생?!

[web]jQuery 복습 3

2022-01-29 1 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[web]jQuery 복습 2

2022-01-28 13 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[web]jQuery 복습 1

2022-01-27 14 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[web]JavaScript 정리4

2022-01-26 5 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[web]JavaScript 정리3

2022-01-25 10 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[web]JavaScript 정리2

2022-01-21 7 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[web]JavaScript 정리1

2022-01-21 8 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[web]CSS 기초 정리

2022-01-21 11 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[web]HTML 기초 정리

2022-01-20 8 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[파이썬 통계분석]추론 통계 강의 요약

2022-01-18 12 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[파이썬 통계분석]기술 통계 강의 요약

2022-01-17 19 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Matplotlib]기초 요약

2022-01-15 6 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Pandas]내가 보려고 올린 Pandas 정리6

2022-01-14 14 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Pandas]내가 보려고 올린 Pandas 정리5

2022-01-14 11 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

네이버 검색 창에 블로그가 검색된다.

2022-01-13 최대 1 분 소요

🎈✨경 축✨🎈

[Pandas]내가 보려고 올린 Pandas 정리4

2022-01-13 27 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Pandas]내가 보려고 올린 Pandas 정리3

2022-01-13 7 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Pandas]내가 보려고 올린 Pandas 정리2

2022-01-13 8 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[알고리즘 특강]자료구조/알고리즘 특강 요약 2일차

2022-01-12 13 분 소요

선형 자료구조(1일차에 이어서)

[알고리즘 특강]자료구조/알고리즘 특강 요약 1일차

2022-01-12 10 분 소요

자료구조

[BOJ/백준-Python]10998번 - AXB

2022-01-11 1 분 소요

🆎10998번 - A×B

[BOJ/백준-Python]1001번 - A-B

2022-01-10 1 분 소요

🆎1001번 - A-B

[BOJ/백준-Python]1000번 - A+B

2022-01-09 1 분 소요

🆎1000번 - A+B

[Pandas]pandas 연습

2022-01-07 3 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Pandas]내가 보려고 올린 Pandas 정리1

2022-01-07 14 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[NumPy]내가 보려고 올린 NumPy 정리2

2022-01-07 12 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[NumPy]내가 보려고 올린 NumPy 정리1

2022-01-06 8 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]class 연습

2022-01-05 9 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[BOJ/백준-Python]10172번 - 개

2022-01-05 최대 1 분 소요

🐶10172번 - 개

[Python기초]File In&out 연습

2022-01-04 7 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]file 개념 정리

2022-01-04 6 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]module 연습

2022-01-03 1 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[BOJ/백준-Python]10171번 - 고양이

2022-01-03 최대 1 분 소요

🐱10171번 - 고양이

[알고리즘 기초]스택과 큐

2022-01-03 1 분 소요

[해당 포스트는 유튜버 나동빈님의 영상을 참고했습니다.]

[BOJ/백준-Python]10718번 - We love kriii

2022-01-02 1 분 소요

❤10718번 - We love kriii

[BOJ/백준-Python]2557번 - Hello World

2022-01-01 최대 1 분 소요

🖐2557번 - Hello World

맨 위로 이동 ↑

2021

[Git]git특강 2일차 정리

2021-12-31 13 분 소요

Today I Learned(TIL)📌 (2021.12.31)

[Git]git특강 1일차 정리

2021-12-31 10 분 소요

Today I Learned(TIL)📌 (2021.12.30)

[Python기초]module

2021-12-30 1 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]function 연습3

2021-12-30 3 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]built-in functions 정리

2021-12-30 3 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]function 연습2

2021-12-29 2 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]function 연습

2021-12-29 3 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]set 연습

2021-12-29 1 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]list 연습2

2021-12-29 4 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]string 연습

2021-12-28 4 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]while문 연습(feat.for문)

2021-12-28 2 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]dictionary 연습

2021-12-28 3 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]if, else, elif 연습2

2021-12-27 3 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]for문 연습2

2021-12-27 2 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]for문 연습

2021-12-27 2 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]if, else, elif 연습

2021-12-27 2 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]input 연습

2021-12-27 1 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]연산자 연습

2021-12-27 최대 1 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

[Python기초]변수와 포매팅 연습

2021-12-24 1 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

명령 프롬프트를 활용한 Windows10 정품인증 방법

2021-12-22 1 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

Git과 GitHub의 기초 사용법

2021-12-16 2 분 소요

[Noitce] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

주피터 노트북 기초 사용법 연습

2021-12-14 2 분 소요

[noitce!!] 고쳐야하거나 틀린 것이 있으면 말씀해주세요!

맨 위로 이동 ↑