0 / 0
Go back to the English version of the documentation
Toplu devreye alımları puanlamak için veri kaynakları
Last updated: 09 Kas 2023
Toplu devreye alımları puanlamak için veri kaynakları

Bir toplu iş devreye alma işi için, bir dosyayı doğrudan karşıya yükleme ya da veritabanı tablolarına bağlantı sağlama gibi çeşitli şekillerde giriş verileri sağlayabilirsiniz. İzin verilen giriş verileri tipleri, oluşturmakta olduğunuz devreye alma işinin tipine göre değişir.

Çerçeveye göre desteklenen giriş tipleri için Çerçeveye göre toplu konuşlandırma girişi ayrıntılarıkonusuna bakın.

Giriş verileri bir toplu işe yerleşik veri ya da veri başvurusuolarak sağlanabilir.

Çerçeveye ve varlık tipine göre toplu konuşlandırmalar için kullanılabilecek giriş tipleri

Çerçeveye ve varlık tipine göre toplu konuşlandırmalar için kullanılabilecek giriş tipleri
Çerçeve Toplu konuşlandırma tipi
Karar optimizasyonu Referans
Python işlevi İç
PyTorch İç ve Başvuru
Tensorflow İç ve Başvuru
Scikit-öğrenme İç ve Başvuru
Python komut dosyaları Referans
Spark MLlib İç ve Başvuru
SPSS İç ve Başvuru
XGBoost İç ve Başvuru

İç veri tanımlaması

Toplu işleme için yerleşik tip giriş verileri, toplu konuşlandırma işinin bilgi yükünde belirtilir. Örneğin, bir CSV dosyasını kullanıcı arabiriminde devreye alma girdisi olarak ya da bir dizüstü bilgisayardaki scoring.input_data parametresi için bir değer olarak iletebilirsiniz. Toplu konuşlandırma işi tamamlandığında, çıkış ilgili işin scoring.predictions meta veri parametresine yazılır.

Veri başvurusu açıklaması

Toplu işleme için kullanılan veri başvurusu tipindeki giriş ve çıkış verileri saklanabilir:

  • Cloud Object Storage saklama kabı ya da SQL/no-SQL veritabanı gibi uzak bir veri kaynağında
  • Bir devreye alma alanında yerel ya da yönetilen veri varlığı olarak

Veri başvurularına ilişkin ayrıntılar şunlardır:

  • Veri kaynağı başvurusu type varlık tipine bağlıdır. Konuşlandırma alanına veri varlıkları eklemebölümündeki Veri kaynağı başvuru tipleri bölümüne bakın.

  • data_asset tipi için, giriş verilerine yönelik başvurular, devreye alma işinin bilgi yükündeki input_data_references.location.href parametresinde bir /v2/assets href olarak belirtilmelidir. Burada belirtilen veri varlığı, yerel ya da bağlı bir veri varlığına başvuru olabilir. Ayrıca, toplu iş devreye alma işinin çıkış verilerinin uzak bir veri kaynağında kalıcı kılınması gerekiyorsa, çıkış verilerine yönelik başvuruların, devreye alma işinin bilgi yükünde /v2/assets href in output_data_reference.location.href parametresi olarak belirtilmesi gerekir.

  • Giriş ve çıkış data_asset başvuruları toplu konuşlandırmayla aynı alan tanıtıcısında olmalıdır.

  • Toplu iş devreye alma işinin çıkış verilerinin bir konuşlandırma alanında yerel varlık olarak kalıcı kılınması gerekiyorsa, output_data_reference.location.name belirtilmelidir. Toplu iş devreye alma işi başarıyla tamamlandığında, alanda belirtilen ada sahip varlık yaratılır.

  • Çıkış verileri, veri varlığının uzak bir veritabanında bulunduğu yere ilişkin bilgileri içerebilir. Bu durumda, toplu iş çıkışının çizelgeye eklenmesini ya da çizelgenin kesilmesini ve çıkış verilerinin güncellenmesini belirleyebilirsiniz. truncate ya da appenddeğerlerini belirtmek için output_data_references.location.write_mode parametresini kullanın.

    • truncate değerinin belirtilmesi, çizelgeyi keser ve toplu çıkış verilerini ekler.
    • Değer olarak append değerinin belirlenmesi, toplu çıkış verilerini uzak veritabanı çizelgesine ekler.
    • write_mode yalnızca output_data_references parametresi için geçerlidir.
    • write_mode yalnızca uzak veritabanıyla ilgili veri varlıkları için geçerlidir. Bu parametre, yerel bir veri varlığı ya da COS tabanlı bir veri varlığı için geçerli değildir.

Örnek data_asset bilgi yükü

"input_data_references": [{
    "type": "data_asset",
    "connection": {
    },
    "location": {
        "href": "/v2/assets/<asset_id>?space_id=<space_id>"
    }
}]

Örnek connection_asset bilgi yükü

"input_data_references": [{
    "type": "connection_asset",
    "connection": {
        "id": "<connection_guid>"
    },
    "location": {
        "bucket": "<bucket name>",
        "file_name": "<directory_name>/<file name>"
    }
    <other wdp-properties supported by runtimes>
}]

Giriş verilerinin yapılandırılması

Toplu işe ilişkin bilgi yükü olarak da bilinen giriş verilerini nasıl yapılandırdığınız, devreye almakta olduğunuz varlığa ilişkin çerçeveye bağlıdır.

Bir .csv giriş dosyası ya da diğer yapılandırılmış veri biçimleri, varlığın şemasıyla eşleşecek şekilde biçimlendirilmelidir. İlk satırdaki sütun adlarını (alanları) ve sonraki satırlarda puanlandırılacak değerleri listeleyin. Örneğin:

PassengerId, Pclass, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked
1,3,"Braund, Mr. Owen Harris",0,22,1,0,A/5 21171,7.25,,S
4,1,"Winslet, Mr. Leo Brown",1,65,1,0,B/5 200763,7.50,,S

Bir JSON giriş dosyası, şu biçimi kullanarak alanlar ve değerlerle ilgili aynı bilgileri sağlamalıdır:

{"input_data":[{
        "fields": [<field1>, <field2>, ...],
        "values": [[<value1>, <value2>, ...]]
}]}

Örneğin:

{"input_data":[{
        "fields": ["PassengerId","Pclass","Name","Sex","Age","SibSp","Parch","Ticket","Fare","Cabin","Embarked"],
        "values": [[1,3,"Braund, Mr. Owen Harris",0,22,1,0,"A/5 21171",7.25,null,"S"],
                  [4,1,"Winselt, Mr. Leo Brown",1,65,1,0,"B/5 200763",7.50,null,"S"]]
}]}

Var olan bir modelin şemasıyla eşleşen bilgi yükünü hazırlama

Şu örnek koda bakın:

model_details = client.repository.get_details("<model_id>")  # retrieves details and includes schema
columns_in_schema = []
for i in range(0, len(model_details['entity']['schemas']['input'][0].get('fields'))):
    columns_in_schema.append(model_details['entity']['schemas']['input'][0].get('fields')[i]['name'])

X = X[columns_in_schema] # where X is a pandas dataframe that contains values to be scored
#(...)
scoring_values = X.values.tolist()
array_of_input_fields = X.columns.tolist()
payload_scoring = {"input_data": [{"fields": [array_of_input_fields],"values": scoring_values}]}

Toplu puanlama işleri için giriş olarak büyük veri birimlerinin kullanılmasıyla ilgili sınırlama

Giriş olarak büyük hacimli verileri kullanan bir toplu puanlama işi çalıştırırsanız, iş iç zamanaşımı ayarlarında başarısız olabilir. Toplu iş puanlaması sırasında zamanaşımı oluşursa, uzun süreli işleri işlemek için veri kaynağı sorgu düzeyi zamanaşımı sınırlamasını yapılandırmanız gerekir. Sorgu zamanaşımı ayarları hakkında daha fazla bilgi için bkz. Watson Machine Learning.

Üst konu: Toplu konuşlandırma oluşturma

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more