if 'google.colab' in str(get_ipython()):
    !wget https://s3.amazonaws.com/keras-datasets/jena_climate_2009_2016.csv.zip
    !unzip jena_climate_2009_2016.csv.zip
else: 
    try: 
        import wget, zipfile
    except ModuleNotFoundError: 
        !pip install wget
        
    import wget, zipfile
    wget.download('https://s3.amazonaws.com/keras-datasets/jena_climate_2009_2016.csv.zip')
    with zipfile.ZipFile('jena_climate_2009_2016.csv.zip', 'r') as zip_ref:
        zip_ref.extractall('./')

100% [........................................................................] 13565642 / 13565642


import os
fname = os.path.join("jena_climate_2009_2016.csv")

with open(fname) as f:
    data = f.read()

lines = data.split("\n")


header = lines[0].split(",")
lines = lines[1:]


print(header)

['"Date Time"', '"p (mbar)"', '"T (degC)"', '"Tpot (K)"', '"Tdew (degC)"', '"rh (%)"', '"VPmax (mbar)"', '"VPact (mbar)"', '"VPdef (mbar)"', '"sh (g/kg)"', '"H2OC (mmol/mol)"', '"rho (g/m**3)"', '"wv (m/s)"', '"max. wv (m/s)"', '"wd (deg)"']


print(len(lines))

420451


lines[0]

'01.01.2009 00:10:00,996.52,-8.02,265.40,-8.90,93.30,3.33,3.11,0.22,1.94,3.12,1307.75,1.03,1.75,152.30'


lines[0].split(',')

['01.01.2009 00:10:00',
 '996.52',
 '-8.02',
 '265.40',
 '-8.90',
 '93.30',
 '3.33',
 '3.11',
 '0.22',
 '1.94',
 '3.12',
 '1307.75',
 '1.03',
 '1.75',
 '152.30']


lines[0].split(',')[2]

'-8.02'


import numpy as np

temperature = np.zeros((len(lines),))
raw_data = np.zeros((len(lines), len(header) - 1))

for i, line in enumerate(lines):
    values = [float(x) for x in line.split(",")[1:]]

    temperature[i] = values[1]    # i 번째 온도
    raw_data[i, :] = values[:]    # i 번째 데이터


from matplotlib import pyplot as plt

plt.plot(range(len(temperature)), temperature)

[<matplotlib.lines.Line2D at 0x28100af8160>]


plt.plot(range(1440), temperature[:1440])

[<matplotlib.lines.Line2D at 0x28101011970>]


num_train_samples = int(0.5 * len(raw_data))     # 전체의 50%
num_val_samples   = int(0.25 * len(raw_data))    # 전체의 25%
num_test_samples  = len(raw_data) - num_train_samples - num_val_samples

print("num_train_samples:\t", num_train_samples)
print("num_val_samples:\t", num_val_samples)
print("num_test_samples:\t", num_test_samples)

num_train_samples:	 210225
num_val_samples:	 105112
num_test_samples:	 105114


# 훈련셋의 평균
mean = raw_data[:num_train_samples].mean(axis=0)
raw_data -= mean

# 훈련셋의 표준편차
std = raw_data[:num_train_samples].std(axis=0)
raw_data /= std


from tensorflow import keras

# 1시간에 하나의 데이터 선택
sampling_rate = 6

# 입력 데이터 시퀀스: 지난 5일치(120시간) 온도 데이터
sequence_length = 120

# 타깃 설정:24시간 이후의 온도. 지연(delay)을 6일치로 지정
delay = sampling_rate * (sequence_length + 24 - 1)

# 배치 크기
batch_size = 256

# 훈련셋
train_dataset = keras.utils.timeseries_dataset_from_array(
    data=raw_data[:-delay],
    targets=temperature[delay:],
    sampling_rate=sampling_rate,
    sequence_length=sequence_length,
    shuffle=True, # 생성된 시퀀스들의 순서 무작위화
    batch_size=batch_size,
    start_index=0,
    end_index=num_train_samples)

# 검증셋
val_dataset = keras.utils.timeseries_dataset_from_array(
    data=raw_data[:-delay],
    targets=temperature[delay:],
    sampling_rate=sampling_rate,
    sequence_length=sequence_length,
    shuffle=True,
    batch_size=batch_size,
    start_index=num_train_samples,
    end_index=num_train_samples + num_val_samples)

# 테스트셋
test_dataset = keras.utils.timeseries_dataset_from_array(
    data=raw_data[:-delay],
    targets=temperature[delay:],
    sampling_rate=sampling_rate,
    sequence_length=sequence_length,
    shuffle=True,
    batch_size=batch_size,
    start_index=num_train_samples + num_val_samples)


for samples, targets in train_dataset:
    print("샘플 모양:", samples.shape)
    print("타깃 모양:", targets.shape)
    break

샘플 모양: (256, 120, 14)
타깃 모양: (256,)


int_sequence = np.arange(10)
int_sequence

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


dummy_dataset = keras.utils.timeseries_dataset_from_array(
    data=int_sequence[:-3],
    targets=int_sequence[3:],
    sequence_length=3,
    batch_size=2,
)


i = 0
for inputs, targets in dummy_dataset:
    print(f"배치 {i}:")
    print("  samples shape:", inputs.shape)
    print("  targets shape:", targets.shape)
    print()
    i += 1

배치 0:
  samples shape: (2, 3)
  targets shape: (2,)

배치 1:
  samples shape: (2, 3)
  targets shape: (2,)

배치 2:
  samples shape: (1, 3)
  targets shape: (1,)


i = 0
for inputs, targets in dummy_dataset:
    print(f"배치 {i}:")
    for i in range(inputs.shape[0]):
        print("  샘플:", [int(x) for x in inputs[i]], "  타깃:", int(targets[i]))
    
    print()
    i += 1

배치 0:
  샘플: [0, 1, 2]   타깃: 3
  샘플: [1, 2, 3]   타깃: 4

배치 2:
  샘플: [2, 3, 4]   타깃: 5
  샘플: [3, 4, 5]   타깃: 6

배치 2:
  샘플: [4, 5, 6]   타깃: 7


def evaluate_naive_method(dataset):
    total_abs_err = 0.
    samples_seen = 0
    for samples, targets in dataset:
        preds = samples[:, -1, 1] * std[1] + mean[1]  # 원 데이터로 되돌리기
        total_abs_err += np.sum(np.abs(preds - targets))
        samples_seen += samples.shape[0]
    return total_abs_err / samples_seen

print(f"검증셋 평균절대오차(MAE): {evaluate_naive_method(val_dataset):.2f}")
print(f"테스트셋 평균절대오차(MAE): {evaluate_naive_method(test_dataset):.2f}")

검증셋 평균절대오차(MAE): 2.44
테스트셋 평균절대오차(MAE): 2.62


from tensorflow import keras
from tensorflow.keras import layers

# 모델 구성
inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.Flatten()(inputs) # 1차원 데이터로 변환하기
x = layers.Dense(16, activation="relu")(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_dense.keras",
                                    save_best_only=True)
]

# 모델 컴파일 및 실행
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])

history = model.fit(train_dataset,
                    epochs=10,
                    validation_data=val_dataset,
                    callbacks=callbacks)

# 최선 모델 활용
model = keras.models.load_model("jena_dense.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/10
819/819 [==============================] - 9s 9ms/step - loss: 12.2736 - mae: 2.7183 - val_loss: 10.8664 - val_mae: 2.6009
Epoch 2/10
819/819 [==============================] - 7s 9ms/step - loss: 9.0685 - mae: 2.3677 - val_loss: 9.8934 - val_mae: 2.4891
Epoch 3/10
819/819 [==============================] - 7s 9ms/step - loss: 8.3427 - mae: 2.2740 - val_loss: 10.3937 - val_mae: 2.5519
Epoch 4/10
819/819 [==============================] - 7s 9ms/step - loss: 7.8283 - mae: 2.2023 - val_loss: 10.3538 - val_mae: 2.5459
Epoch 5/10
819/819 [==============================] - 8s 9ms/step - loss: 7.4707 - mae: 2.1519 - val_loss: 10.5405 - val_mae: 2.5723
Epoch 6/10
819/819 [==============================] - 7s 9ms/step - loss: 7.2358 - mae: 2.1186 - val_loss: 11.3723 - val_mae: 2.6761
Epoch 7/10
819/819 [==============================] - 7s 9ms/step - loss: 7.0119 - mae: 2.0874 - val_loss: 11.4496 - val_mae: 2.6884
Epoch 8/10
819/819 [==============================] - 7s 9ms/step - loss: 6.8604 - mae: 2.0644 - val_loss: 11.5529 - val_mae: 2.6926
Epoch 9/10
819/819 [==============================] - 8s 9ms/step - loss: 6.7145 - mae: 2.0424 - val_loss: 11.5238 - val_mae: 2.6896
Epoch 10/10
819/819 [==============================] - 7s 9ms/step - loss: 6.6103 - mae: 2.0263 - val_loss: 12.3720 - val_mae: 2.7930
405/405 [==============================] - 3s 6ms/step - loss: 11.4121 - mae: 2.6397
Test MAE: 2.64


import matplotlib.pyplot as plt

loss = history.history["mae"]
val_loss = history.history["val_mae"]
epochs = range(1, len(loss) + 1)

plt.figure()
plt.plot(epochs, loss, "bo", label="Training MAE")
plt.plot(epochs, val_loss, "b", label="Validation MAE")
plt.title("Training and validation MAE")
plt.legend()
plt.show()


# 모델 구성
inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.Conv1D(8, 24, activation="relu")(inputs)
x = layers.MaxPooling1D(2)(x)
x = layers.Conv1D(8, 12, activation="relu")(x)
x = layers.MaxPooling1D(2)(x)
x = layers.Conv1D(8, 6, activation="relu")(x)
x = layers.GlobalAveragePooling1D()(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_conv.keras",
                                    save_best_only=True)
]

# 모델 컴파일 및 실행
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])

history = model.fit(train_dataset,
                    epochs=10,
                    validation_data=val_dataset,
                    callbacks=callbacks)

# 최선 모델 활용
model = keras.models.load_model("jena_conv.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/10
819/819 [==============================] - 17s 12ms/step - loss: 22.5694 - mae: 3.7298 - val_loss: 15.5555 - val_mae: 3.1539
Epoch 2/10
819/819 [==============================] - 9s 11ms/step - loss: 15.2617 - mae: 3.1021 - val_loss: 17.3005 - val_mae: 3.2850
Epoch 3/10
819/819 [==============================] - 9s 11ms/step - loss: 13.7075 - mae: 2.9360 - val_loss: 19.5843 - val_mae: 3.4899
Epoch 4/10
819/819 [==============================] - 9s 11ms/step - loss: 12.9298 - mae: 2.8494 - val_loss: 15.1198 - val_mae: 3.0507
Epoch 5/10
819/819 [==============================] - 9s 11ms/step - loss: 12.3659 - mae: 2.7853 - val_loss: 16.3244 - val_mae: 3.1704
Epoch 6/10
819/819 [==============================] - 9s 11ms/step - loss: 11.9325 - mae: 2.7334 - val_loss: 14.6759 - val_mae: 3.0422
Epoch 7/10
819/819 [==============================] - 9s 11ms/step - loss: 11.5099 - mae: 2.6869 - val_loss: 14.5416 - val_mae: 3.0241
Epoch 8/10
819/819 [==============================] - 9s 11ms/step - loss: 11.1526 - mae: 2.6436 - val_loss: 15.9258 - val_mae: 3.1450
Epoch 9/10
819/819 [==============================] - 9s 11ms/step - loss: 10.7901 - mae: 2.6019 - val_loss: 14.7184 - val_mae: 3.0324
Epoch 10/10
819/819 [==============================] - 9s 11ms/step - loss: 10.5393 - mae: 2.5718 - val_loss: 14.9115 - val_mae: 3.0697
405/405 [==============================] - 3s 6ms/step - loss: 16.4787 - mae: 3.2334
Test MAE: 3.23


import matplotlib.pyplot as plt

loss = history.history["mae"]
val_loss = history.history["val_mae"]
epochs = range(1, len(loss) + 1)

plt.figure()
plt.plot(epochs, loss, "bo", label="Training MAE")
plt.plot(epochs, val_loss, "b", label="Validation MAE")
plt.title("Training and validation MAE")
plt.legend()
plt.show()


# 모델 구성
inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))

# LSTM 층
x = layers.LSTM(16)(inputs)

# 출력층
outputs = layers.Dense(1)(x)

model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_lstm.keras",
                                    save_best_only=True)
]

# 모델 컴파일 및 실행
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=10,
                    validation_data=val_dataset,
                    callbacks=callbacks)

model = keras.models.load_model("jena_lstm.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/10
819/819 [==============================] - 16s 17ms/step - loss: 41.4105 - mae: 4.6696 - val_loss: 12.3946 - val_mae: 2.6863
Epoch 2/10
819/819 [==============================] - 14s 17ms/step - loss: 11.0485 - mae: 2.5860 - val_loss: 9.6549 - val_mae: 2.4154
Epoch 3/10
819/819 [==============================] - 14s 17ms/step - loss: 9.9441 - mae: 2.4608 - val_loss: 9.7519 - val_mae: 2.4207
Epoch 4/10
819/819 [==============================] - 14s 16ms/step - loss: 9.5458 - mae: 2.4071 - val_loss: 9.4256 - val_mae: 2.3791
Epoch 5/10
819/819 [==============================] - 14s 17ms/step - loss: 9.2322 - mae: 2.3655 - val_loss: 9.5067 - val_mae: 2.3857
Epoch 6/10
819/819 [==============================] - 14s 17ms/step - loss: 8.9148 - mae: 2.3218 - val_loss: 9.6452 - val_mae: 2.4019
Epoch 7/10
819/819 [==============================] - 14s 17ms/step - loss: 8.6313 - mae: 2.2886 - val_loss: 9.6782 - val_mae: 2.4281
Epoch 8/10
819/819 [==============================] - 13s 16ms/step - loss: 8.4212 - mae: 2.2628 - val_loss: 9.6081 - val_mae: 2.4161
Epoch 9/10
819/819 [==============================] - 13s 16ms/step - loss: 8.2344 - mae: 2.2396 - val_loss: 10.1690 - val_mae: 2.4604
Epoch 10/10
819/819 [==============================] - 14s 17ms/step - loss: 8.0927 - mae: 2.2217 - val_loss: 9.7956 - val_mae: 2.4416
405/405 [==============================] - 4s 8ms/step - loss: 11.0302 - mae: 2.5840
Test MAE: 2.58


import matplotlib.pyplot as plt

loss = history.history["mae"]
val_loss = history.history["val_mae"]
epochs = range(1, len(loss) + 1)

plt.figure()
plt.plot(epochs, loss, "bo", label="Training MAE")
plt.plot(epochs, val_loss, "b", label="Validation MAE")
plt.title("Training and validation MAE")
plt.legend()
plt.show()


num_features = 14
inputs = keras.Input(shape=(None, num_features)) # 임의의 길이의 시퀀스 처리
outputs = layers.SimpleRNN(16)(inputs)


num_features = 14  # 특성 수
steps = 120        # 시퀀스 길이 지정
inputs = keras.Input(shape=(steps, num_features))
outputs = layers.SimpleRNN(16, return_sequences=False)(inputs)  # 마지막 항목의 출력값만 사용
print(outputs.shape)

(None, 16)


num_features = 14  # 특성 수
steps = 120        # 시퀀스 길이 지정
inputs = keras.Input(shape=(steps, num_features))
outputs = layers.SimpleRNN(16, return_sequences=True)(inputs)  # 모든 항목의 출력값 사용
print(outputs.shape)

(None, 120, 16)


inputs = keras.Input(shape=(steps, num_features))
x = layers.SimpleRNN(16, return_sequences=True)(inputs)
x = layers.SimpleRNN(16, return_sequences=True)(x)
outputs = layers.SimpleRNN(16)(x)


inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.LSTM(32, recurrent_dropout=0.25)(inputs)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_lstm_dropout.keras",
                                    save_best_only=True)
]

model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])

history = model.fit(train_dataset,
                    epochs=50,
                    validation_data=val_dataset,
                    callbacks=callbacks)

model = keras.models.load_model("jena_lstm_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")


inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(32, recurrent_dropout=0.5, return_sequences=True)(inputs)
x = layers.GRU(32, recurrent_dropout=0.5)(x)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=50,
                    validation_data=val_dataset,
                    callbacks=callbacks)

model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")


inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.Bidirectional(layers.LSTM(16))(inputs)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=10,
                    validation_data=val_dataset)

10장 시계열 데이터와 순환 신경망¶

주요내용¶

10.1 시계열 데이터 예제¶

10.2 예제: 온도 예측¶

데이터셋 준비¶

데이터 전처리¶

참고: `timeseries_dataset_from_array()` 활용법¶

베이스라인 설정¶

밀집 연결 모델 성능¶

1D 합성곱 신경망 모델 성능¶

간단한 순환 모델 성능¶

10.3 순환 신경망 이해¶

`SimpleRNN` 층 작동법¶

케라스 순환층 기본 사용법¶

`LSTM` 층 작동법¶

10.4 순환 신경망 고급 활용법¶

순환 드랍아웃 적용¶

순환층 쌓기¶

양방향 RNN 적용¶

성능 최대한 끌어올리기¶

10장 시계열 데이터와 순환 신경망¶

주요내용¶

10.1 시계열 데이터 예제¶

10.2 예제: 온도 예측¶

데이터셋 준비¶

데이터 전처리¶

참고: timeseries_dataset_from_array() 활용법¶

베이스라인 설정¶

밀집 연결 모델 성능¶

1D 합성곱 신경망 모델 성능¶

간단한 순환 모델 성능¶

10.3 순환 신경망 이해¶

SimpleRNN 층 작동법¶

케라스 순환층 기본 사용법¶

LSTM 층 작동법¶

10.4 순환 신경망 고급 활용법¶

순환 드랍아웃 적용¶

순환층 쌓기¶

양방향 RNN 적용¶

성능 최대한 끌어올리기¶

참고: `timeseries_dataset_from_array()` 활용법¶

`SimpleRNN` 층 작동법¶

`LSTM` 층 작동법¶