Translation not up to date
Verileri daraltmak için, verileri bir yerden alır, temizler ve şekillendirir ve daha sonra, sonucu farklı bir konuma yüklemeniz gerekir. Data Refineryadlı bir grafik akış düzenleyicisi aracıyla sekmeli verileri temizleyebilir ve şekillendirebilirsiniz.
Verileri temizlerken, yanlış, eksik, yanlış biçimlendirilmiş ya da çoğaltılmış verileri düzeltir ya da kaldırıyorsunuz. Verileri şekillendirdiğinizde, sütunları süzgeçten geçirerek, sıralayarak, birleştirerek ya da kaldırarak verileri özelleştirebilirsiniz.
Veriler üzerinde sıralı işlemler kümesi olarak bir Data Refinery akışı yaratırsınız. Data Refinery , verilerinizin profilini oluşturmak için bir grafik arabirimi ve verilerinize ilişkin öngörüler sağlayan 20 'den fazla özelleştirilebilir grafik içerir.
- Veri biçimi
- Avro, CSV, JSON, Microsoft Excel (xls ve xlsx biçimleri. Bağlantılar ve bağlantılı veri varlıkları dışında yalnızca ilk sayfa.), "sas7bdat" uzantılı SAS (salt okunur), TSV (salt okunur) ya da sınırlanmış metin veri varlığı
- İlişkisel veri kaynaklarındaki tablolar
- Veri büyüklüğü
- Herhangi biri. Data Refinery , veri kümesindeki satırların örnek bir alt kümesinde çalışır. Örnek boyutu, hangisi önce gelirse, 1 MB ya da 10.000 satırdır. Ancak, Data Refinery akışı için bir iş çalıştırdığınızda, tüm veri kümesi işlenir. Data Refinery akışı büyük bir veri varlığıyla başarısız olursa, Troubleshooting Data Refineryiçindeki geçici çözümlere bakın.
- Önkoşullar
- Kaynak dosya sınırlamaları
- Hedef dosya sınırlamaları
- Veri kümesi önizlemeleri
- Verilerinizi iyileşir
Önkoşullar
Verileri daraltmadan önce, Cloud Object Storagekullanan bir projeye ihtiyacınız vardır. Kum havuzu projesini kullanabilir ya da yeni bir proje yaratabilirsiniz.
Bulut ortamında ya da şirket içi veri kaynaklarında verileriniz varsa, bu kaynaklara bağlantılar eklemeniz gerekir ve her bir bağlantıdan veri varlıkları eklemeniz gerekir. İyileştirilmiş verileri buluta ya da şirket içi veri kaynaklarına kaydetmek istiyorsanız, bu amaçla da bağlantılar oluşturun. Kaynak bağlantılar yalnızca verileri okumak için kullanılabilir; hedef bağlantılar yalnızca verileri yüklemek (kaydetmek) için kullanılabilir. Bir hedef bağlantı oluşturduğunuzda, Yazma izni olan kimlik bilgilerini kullandığınızdan emin olun ya da Data Refinery akış çıkışınızı hedefe kaydedemezsiniz.
Kaynak dosya sınırlamaları
CSV dosyaları
CSV dosyalarının doğru biçimlendirildiğinden ve aşağıdaki kurallara uygun olduğundan emin olun:
- Bir satırdaki ardışık iki virgül boş bir sütunu gösterir.
- Bir satır virgülle biterse, ek bir sütun oluşturulur.
Beyaz alan karakterleri, verilerin bir parçası olarak kabul edilir
Verileriniz beyaz alan (boşluk) karakterleri içeren sütunlar içeriyorsa, Data Refinery bu beyaz alan karakterlerini ızgarada göremediğiniz halde verilerin bir parçası olarak kabul eder. Bazı veritabanı araçları, bir kolondaki tüm verilerin aynı uzunlukta olmasını sağlamak için karakter dizgilerini beyaz alan karakterleriyle doldurabilir ve bu değişiklik, verileri karşılaştıracak Data Refinery işlemlerinin sonuçlarını etkiler.
sütun adları
Sütun adlarının aşağıdaki kurallara uyduğundan emin olun:
- Yinelenen kolon adlarına izin verilmez. Sütun adları, veri kümesi içinde benzersiz olmalıdır. Sütun adları büyük ve küçük harfe duyarlı değildir. "Satış" sütun adını ve başka bir "satış" sütun adını içeren bir veri kümesi çalışmaz.
- Sütun adları R programlama dilinde ayrılmış sözcükler değildir.
- Sütun adları sayı değil. Geçici çözüm, sütun adlarını çift tırnak ("") içine almaktır.
"Diğer" veri tipine sahip sütunlar içeren veri kümeleri, Data Refinery akışlarında desteklenmez
Veri kümeniz, Watson Studio önizlemesinde "Diğer" olarak tanımlanan veri tiplerine sahip sütunlar içeriyorsa, sütunlar Data Refinery. Ancak, verileri bir Data Refinery akışında kullanmayı denerseniz, Data Refinery akışı işi başarısız olur. Önizlemede "Diğer" olarak gösterilen bir veri tipi örneği, Db2 DECFLOAT veri tipidir.
Hedef dosya sınırlamaları
Data Refinery akış çıkışını (hedef veri kümesi) bir dosyaya kaydettiğinizde aşağıdaki sınırlama geçerlidir:
- Dosya var olan bir veri varlığıysa dosya biçimini değiştiremezsiniz.
Veri kümesi önizlemeleri
Data Refinery , zaman alan ve iyileştirilmesi zor olan büyük veri kümeleri için destek sağlar. Hızlı ve verimli bir şekilde çalışmanızı sağlamak için, verileri etkileşimli olarak iyileştirirken veri kümesindeki satırların bir alt kümesinde çalışır. Data Refinery akışı için bir iş çalıştırdığınızda, iş tüm veri kümesinde çalışır.
Verilerinizi iyileştirin
Aşağıdaki videoda verileri nasıl daraltacağınız gösterilmektedir.
Bu video, bu belgedeki kavramları ve görevleri öğrenmek için görsel bir yöntem sağlar.
Video metni Süre transcript 00:00 Bu videoda, Data Refinerykullanılarak işlenmemiş verilerin nasıl şekillendirileceği gösterilmektedir. 00:05 Bir projeden verileri iyileştirmeye başlamak için veri varlığını görüntüleyin ve Data Refineryiçinde iyordu olarak ği olacaktır. 00:14 "Bilgi" bölmesi, verileri iyileştirmeyi tamamladığınızda, veri akışı ve veri akışı çıkışı için adı içerir. 00:23 "Veri" sekmesi, veri kümesindeki satır ve sütunlardan oluşan örnek bir kümeyi gösterir. 00:29 Performansı artırmak için, şekildeki tüm satırları göremeyeceksiniz. 00:33 Ancak, verileri iyileştirmeyi tamamladığınızda, veri akışının tam veri kümesinde çalıştırılacağına emin olun. 00:41 "Profil" sekmesi, sütunlarınızın her biri için sıklık ve özet istatistiklerini gösterir. 00:49 "Görselleştirmeler" sekmesi, ilgilendiğiniz sütunlar için veri görselleştirmeleri sağlar. 00:57 Önerilen grafiklerin simgelerinin yanında mavi bir nokta vardır. 01:03 Veri içindeki kalıpları, bağlantıları ve ilişkileri belirlemek için grafiklerde bulunan farklı perspektifleri kullanın. 01:12 Şimdi, biraz veri çekişmesi yapalım. 01:17 Belirtilen sütunda sıralama gibi basit bir işlemle başlayın-bu durumda "Yıl" sütunu. 01:27 Yalnızca belirli bir havayolu için gecikmelere odaklanmak istediğinizi söyleyin, böylece verileri yalnızca benzersiz havayolu şirketinin "United Airlines" olduğu sıresi layabilirsiniz? de! de?- 01:47 Toplam gecikmeyi görmek yardımcı olur. 01:50 Bunu, varış ve kalkış gecikmelerini birleştirmek için yeni bir sütun oluşturarak yapabilirsiniz. 01:56 Kolon tipinin tamsayı olduğu sonucuna dikkat edin. 02:00 Kalkış gecikmesi sütununu seçin ve "Hesapla" işlemini kullanın. 02:09 Bu durumda, seçilen sütuna varış gecikmesi sütununu ekleyecek ve "TotalDelay" adlı yeni bir sütun oluşturacaksınız. 02:23 Yeni sütunu, sütun listesinin sonuna ya da özgün sütunun yanına konumlandırabilirsiniz. 02:31 İşlemi uyguladığınızda, yeni sütun, kalkış gecikmesi sütununun yanında görüntülenir. 02:38 Bir hata yaparsanız ya da değişiklik yapmaya karar verirseniz, "Adımlar" panosuna erişin ve o adımı silin. 02:46 Bu işlem o işlemi geri alır. 02:50 Yinele ve geri al düğmelerini de kullanabilirsiniz. 02:56 Daha sonra, sütunu başa taşımak için "seç" işlemini kullanabilmek için "TotalDelay" sütununa odaklanmak istersiniz. 03:09 Bu komut, "TotalDelay" sütununu listenin ilk sütunu olarak düzenler ve bundan sonra her şey gelir. 03:21 Daha sonra, verileri yıla, aya ve güne göre gruplara ayırmak için "group_by" işlemini kullanın. 03:32 Bu nedenle, "TotalDelay" sütununu seçtiğinizde, "Yıl", "Ay", "DayofMonth" ve "TotalDelay" sütunlarını görürsünüz. 03:44 Son olarak, "TotalDelay" sütununun ortalama olarak bulunmasını istiyorsunuz. 03:48 "İşlemler" menüsünü açtığınızda, "Düzenle" bölümünde "Ortalama" işlevini içeren "Toplama" işlemini bulursunuz. 04:08 Şimdi, toplam gecikme ortalamasını temsil eden "AverageDelay" adlı yeni bir sütununuz var. 04:17 Şimdi veri akışını çalıştırmak ve işi kaydetmek ve yaratmak için. 04:24 İş için bir ad girin ve sonraki ekrana geçin. 04:28 "Yapılandır" adımı, iş çalıştırmanın giriş ve çıkışının ne olacağını gözden geçirmenizi sağlar. 04:36 Ve işi çalıştırmak için kullanılan ortamı seçin. 04:41 Bir işi zamanlama isteğe bağlıdır, ancak bir tarih ayarlayabilir ve işi yineleyebilirsiniz (isterseniz). 04:51 Ayrıca bu iş için bildirim almayı seçebilirsiniz. 04:56 Her şey iyi görünüyor, o yüzden işi yarat ve çalıştır. 05:00 Veri akışının tam veri kümesinde çalıştırılacağını unutmayın, bu işlem birkaç dakika sürebilir. 05:06 Ortalama süre içinde durumu görüntüleyebilirsiniz. 05:12 Çalıştırma rekabet ettiğinde, projedeki "Varlıklar" sekmesine geri dönebilirsiniz. 05:20 Verileri daha da daraltmak için Data Refinery akışını açın. 05:28 Örneğin, "AverageDelay" sütununu azalan düzende sıralayabilirsiniz. 05:36 Şimdi akış ayarlarını düzenleyin. 05:39 "Genel" panosunda, Data Refinery Akış Adını değiştirebilirsiniz. 05:46 "Kaynak veri kümeleri" panosunda, kaynak veri kümesine ilişkin örneği ya da biçimi düzenleyebilir ya da veri kaynağını değiştirebilirsiniz. 05:56 "Hedef veri kümesi" panosunda, dış veri kaynağı gibi alternatif bir konum belirtebilirsiniz. 06:06 Yazma kipi, dosya biçimi gibi hedefe ilişkin özellikleri düzenleyebilir ve veri kümesi varlık adını değiştirebilirsiniz. 06:21 Şimdi veri akışını yeniden çalıştırın; ancak bu sefer işleri kaydedin ve görüntüleyin. 06:28 Görüntülemek istediğiniz işi listeden seçin ve işi çalıştırın. 06:41 Çalıştırma tamamlandığında, projeye geri dönün. 06:46 Ve "Varlıklar" sekmesinde, üç dosyayı da göreceksiniz: 06:51 Orijinal. 06:54 "AverageDelay" sıralanmamış olarak gösterilen ilk iyileştirilmiş veri kümesi. 07:02 Ve "AverageDelay" sütununu azalan düzende sıralanmış olarak gösteren ikinci veri kümesi. 07:11 Ve "Varlıklar" sekmesinde, Data Refinery var. 07:19 Cloud Pak for Data as a Service belgelerinde daha fazla video bulun.
1. Bir proje içinden Data Refinery ' ne erişin. Yeni görev > Verileri hazırla ve görselleştirseçeneklerini tıklatın. Daha sonra, çalışmak istediğiniz verileri seçin. Alternatif olarak, bir projenin Varlıklar sekmesinden önizlemek için bir dosyayı ( desteklenen biçimler) açın ve Verileri hazırla' yı tıklatın.
2. Verilerinizi temizleyen, şekillendiren ve zenginleştiren işlemleri uygulamak için adımları kullanın. İşlem kategorilerine göz atın ya da belirli bir işlemi arayın, daha sonra kullanıcı arabiriminin size yol göstermesine izin verin. Komut satırına R kodu girebilir ve otomatik tamamlamanın doğru sözdizimini almanıza yardımcı olmasına izin verebilirsiniz. İşlemleri bir veri kümesine uyguladığınızda, Data Refinery bunları izler ve bir Data Refinery akışı oluşturur. Uyguladığınız her işlem için Data Refinery bir adım ekler.
Veri sekmesi
Verileriniz dizgi olmayan veri tipleri içeriyorsa, Sütun tipini dönüştür GUI işlemi, Data Refineryiçinde bir dosya açtığınızda Data Refinery akışının ilk adımı olarak otomatik olarak uygulanır. Veri tipleri, Tamsayı, Tarih ya da Boole gibi çıkarsanan veri tiplerine otomatik olarak dönüştürülür. Bu adımı geri alabilir ya da düzenleyebilirsiniz.
3. Veri iyileştirme süreci boyunca verilerinizi doğrulamak için Profil sekmesini tıklatın.
Profil sekmesi
4. Grafiklerde verileri görselleştirmek için Görselleştirmeler sekmesini tıklatın. Verilerinizdeki kalıpları, eğilimleri ve korelasyonları ortaya çıkarın.
Görselleştirmeler sekmesi
5. Örnek veri kümesini gereksinimlerinize uyacak şekilde ayarlayın.
6. Tüm veri kümesinde Data Refinery akışını çalıştırmak için araç çubuğunda Kaydet ve bir iş oluştur ya da İşleri kaydet ve görüntüle seçeneğini tıklatın. Yürütme ortamını seçin ve bir kerelik ya da yinelenen bir zamanlama ekleyin. İşlerle ilgili bilgi için Data Refinerybaşlıklı konuya bakın.
Verilerinizi iyileştirirken yapabileceğiniz işlemler için bkz. Data Refinery akışları.
Sonraki adım
Daha fazla bilgi
Üst konu: Verileri hazırlama