Translation not up to date
Birleşik Öğrenim deneyindeki her taraf, verilerini işlemek için bir veri işleyicisi edinmelidir. Siz ya da bir veri bilimcisi veri işleyicisini oluşturmalısınız. Veri işleyicisi, deneye ilişkin tüm verilerin tutarlı bir biçimde olması için verileri yükleyen ve dönüştüren bir Python sınıfıdır.
Veri işleyici sınıfı hakkında
Veri işleyici aşağıdaki işlevleri gerçekleştirir:
- Modeli eğitmek için gereken verilere erişir. Örneğin, bir CSV dosyasındaki verileri Pandas veri çerçevesine okur.
- Verilerin önceden işlenebilmesi için verilerin tüm taraflar arasında tutarlı bir biçimde olması gerekir. Bazı örnek durumlar aşağıdaki gibidir:
- Tarih sütunu, zaman dönemi ya da zaman damgası olarak saklanabilir.
- Ülke sütunu kodlanabilir ya da kısaltılmış olabilir.
- Veri işleyicisi, veri biçimlendirmesinin sözleşmede olmasını sağlar.
- Gerektiği şekildeİsteğe bağlı: aksam mühendisi.
Aşağıdaki şekilde, veri işleyicinin verileri işlemek için nasıl kullanıldığını ve deneyden nasıl yararlanılabildiğini gösterir:
Veri işleyici şablonu
Genel veri işleyici şablonu aşağıdaki gibidir:
# your import statements
from ibmfl.data.data_handler import DataHandler
class MyDataHandler(DataHandler):
"""
Data handler for your dataset.
"""
def __init__(self, data_config=None):
super().__init__()
self.file_name = None
if data_config is not None:
# This can be any string field.
# For example, if your data set is in `csv` format,
# <your_data_file_type> can be "CSV", ".csv", "csv", "csv_file" and more.
if '<your_data_file_type>' in data_config:
self.file_name = data_config['<your_data_file_type>']
# extract other additional parameters from `info` if any.
# load and preprocess the training and testing data
self.load_and_preprocess_data()
"""
# Example:
# (self.x_train, self.y_train), (self.x_test, self.y_test) = self.load_dataset()
"""
def load_and_preprocess_data(self):
"""
Loads and pre-processeses local datasets,
and updates self.x_train, self.y_train, self.x_test, self.y_test.
# Example:
# return (self.x_train, self.y_train), (self.x_test, self.y_test)
"""
pass
def get_data(self):
"""
Gets the prepared training and testing data.
:return: ((x_train, y_train), (x_test, y_test)) # most build-in training modules expect data is returned in this format
:rtype: `tuple`
This function should be as brief as possible. Any pre-processing operations should be performed in a separate function and not inside get_data(), especially computationally expensive ones.
# Example:
# X, y = load_somedata()
# x_train, x_test, y_train, y_test = \
# train_test_split(X, y, test_size=TEST_SIZE, random_state=RANDOM_STATE)
# return (x_train, y_train), (x_test, y_test)
"""
pass
def preprocess(self, X, y):
pass
Parametreler
your_data_file_type
: Bu herhangi bir dize alanı olabilir. Örneğin, veri küğünüzcsv
biçiminde ise,your_data_file_type
"CSV", ". csv", "csv", "csv_file" ve daha fazlasını olabilir.
Keras ya da Tensorflowtarafından tanımlanan bir veri üretecini döndürür.
Aşağıda, Keras ya da Tensorflowtarafından tanımlanan bir veri oluşturucuyu döndürmek için get_data
işlevinin bir parçası olarak eklenmesi gereken bir kod örneği yer almaktadır:
train_gen = ImageDataGenerator(rotation_range=8,
width_sht_range=0.08,
shear_range=0.3,
height_shift_range=0.08,
zoom_range=0.08)
train_datagenerator = train_gen.flow(
x_train, y_train, batch_size=64)
return train_datagenerator
Veri işleyici örnekleri
Üst konu: Birleşik Eğitim deneyinin oluşturulması