Translation not up to date
Her temel model, yanlış ve hatta zararlı içerik içeren çıktı üretme potansiyeline sahiptir. Üretilebilecek istenmeyen çıktı tiplerini, istenmeyen çıktının nedenlerini ve zarar riskini azaltmak için atabileceğiniz adımları anlayın.
IBM watsonx.ai içinde bulunan temel modeller halüsinasyonlar, kişisel bilgiler, nefret söylemi, istismar, küfür ve önyargı içeren çıktı oluşturabilir. Aşağıdaki teknikler, riskin azaltılmasına yardımcı olabilir, ancak oluşturulan çıktının istenmeyen içerikten uzak kalacağını garanti etmez.
Temel model çıkışında aşağıdaki istenmeyen içerik türlerini önlemenize yardımcı olacak teknikleri bulun:
Halüsinasyonlar
Bir temel modeli konu dışı, yinelenen ya da yanlış içerik oluşturduğunda ya da ayrıntıları oluşturduğunda, bu davranışa bazen halüsinasyondenir.
Konu dışı halüsinasyonlar, oluşturulan çıktının deşifre edilmesinde sözde rastgelelik nedeniyle meydana gelebilir. En iyi durumlarda, bu rastgelelik harika bir şekilde yaratıcı bir çıktıya neden olabilir. Ama rastgelelik, kullanışlı olmayan saçma sapan çıkışlar ile de sonuçlanabilir.
Model, metin oluşturması istendiğinde, uydurulmuş ayrıntılar biçiminde halüsinasyonlar döndürebilir, ancak üzerine çizmek için yeterli ilgili metin verilmez. Örneğin, bilgi istemine doğru ayrıntıları eklerseniz, modelin halüsinasyon görmesi ve ayrıntıları oluşturması daha az olasıdır.
Halüsinasyonlardan kaçınma teknikleri
Halüsinasyonları önlemek için, aşağıdaki tekniklerden birini ya da birkaçını test edin:
Etki alanınızla ve yapmakta olduğunuz görevle eşleşen ön eğitim ve ince ayar içeren bir model seçin.
Bilgi isteminizde bağlam sağlayın.
Bir temel modele, ön eğitim verilerinde yaygın olmayan bir konuda metin oluşturması için talimat verdiyseniz ve konu hakkında bilgi eklemezseniz, modelin halüsinasyon görmesi daha olasıdır.
Simge sayısı alt sınırı ve simge sayısı üst sınırı değiştirgeleri için tutucu değerler belirtin ve bir ya da daha çok durdurma sırası belirtin.
Min tokens parametresi için yüksek bir değer belirttiğinizde, modeli modelin doğal olarak bilgi istemi için döndüreceği yanıttan daha uzun bir yanıt üretmeye zorlayabilir. Modelin, gerekli sınıra ulaşmak için çıktıya sözcükler eklediği için halüsinasyon görmesi daha olasıdır.
Oluşturulan çıktıda çok fazla yaratıcılık gerektirmeyen kullanım senaryoları için, açgözlü kod çözme özelliğini kullanın. Örnekleme kodunu çözmeyi tercih ediyorsanız, sıcaklık, üst-p ve üst-k parametreleri için muhafazakar değerler belirttiğinizden emin olun.
Oluşturulan çıkıştaki yinelenen metni azaltmak için, yineleme cezası parametresini artırmayı deneyin.
Açgözlü kod çözme yöntemini kullanırken oluşturulan çıktıda yinelenen metin görürseniz ve kullanım senaryounuz için kabul edilebilir bir yaratıcılık varsa, bunun yerine örnekleme kodunu çözmeyi deneyin. Sıcaklık, üst-p ve üst-k parametreleri için orta düzeyde düşük değerler belirlediğinizden emin olun.
Komut isteminizde, modele güvenli ya da yüksek olasılıklı bir yanıtı olmadığında ne yapacağını öğretin.
Örneğin, bir soru yanıtlama senaryosunda şu yönergeyi ekleyebilirsiniz:
If the answer is not in the article, say “I don't know”.
Kişisel bilgiler
Temel modelin kelime dağarcığı, ön eğitim verilerindeki sözcüklerden oluşur. Ön eğitim verileri, Internet 'ten kazınmış web sayfaları içeriyorsa, modelin söz varlığı aşağıdaki bilgi tiplerini içerebilir:
- Yazı yazarlarının adları
- Şirket web sitelerinden iletişim bilgileri
- Açık topluluk forumlarında gönderilen sorulardan ve yorumlardan alınan kişisel bilgiler
Bir reklam e-postasının bir parçası için metin oluşturmak üzere bir temel modeli kullanırsanız, oluşturulan içerik başka bir şirket için iletişim bilgilerini içerebilir!
Bir temel modelden atıflar içeren bir makale yazmasını isterseniz, model geçerli olan ancak olmayan referansları içerebilir. Hatta bu uydurma referansları doğru alandan gerçek yazarlara bile gönderebilir. Bir temel model muhtemelen imitasyon atıfları üretebilir, doğru ama gerçeklere dayanmaz, çünkü modeller birlikte görünme olasılığı yüksek olan kelimeleri (adlar dahil) bir araya getirmede iyidir. Modelin çıktıya bir meşruiyet katması, gerçek insanların adlarını atıflara yazarak, bu halüsinasyon formunu ikna edici ve inandırıcı hale getiriyor. Ayrıca bu halüsinasyon formunu tehlikeli hale getiriyor. İnsanlar, atıfların gerçek olduğuna inanıyorlarsa başlarını belaya sokabilirler. Yazmadıkları eserlerin yazarı olarak listelenen insanlara gelebilecek zarardan bahsetmiyorum bile.
Kişisel bilgilerin hariç tutulmasına ilişkin teknikler
Kişisel bilgileri dışlamak için aşağıdaki teknikleri deneyin:
Komut isteminizde, modele adlardan, iletişim ayrıntılarından ya da kişisel bilgilerden bahsetmemesini bildirin.
Örneğin, bir modelden bir reklam e-postası oluşturmasını istediğinizde, modele şirketinizin adını ve telefon numarasını eklemesini söyleyin. Ayrıca, modele "başka bir şirket veya kişisel bilgi içermemesini" de talimat verin.
Daha büyük uygulamanızda, satış hattınızda ya da çözümünde, kişisel bilgileri bulmak ve kaldırmak için temel model tarafından oluşturulan içeriği işleme alın.
Nefret söylemi, taciz ve küfür.
Kişisel bilgilerde olduğu gibi, ön eğitim verileri nefret dolu veya küfürlü terimler veya küfür içerdiğinde, bu veriler üzerine eğitilen bir temel model söz varlığında bu sorunlu terimlere sahiptir. Modelin söz varlığında uygun olmayan bir dil varsa, temel model istenmeyen içeriği içeren bir metin oluşturabilir.
İşiniz için içerik oluşturmak üzere temel modelleri kullandığınızda, aşağıdaki işlemleri gerçekleştirmeniz gerekir:
- Bu tür bir çıktının her zaman mümkün olduğunu kabul edin.
- Bu tür zararlı çıktı üretmek için modeli tetikleme olasılığını azaltmak için adımlar atın.
- Çözümleriniz için insan incelemesi ve doğrulama süreçleri oluşturun.
Nefret söylemi, istismar ve küfür riskini azaltma teknikleri
Nefret söylemi, istismar ve küfürden kaçınmak için, bu tekniklerden birini veya daha fazlasını test edin:
Bilgi İstemi Laboratuvarı 'nda, Yapay Zeka koruyucuları anahtarını On (Açık) olarak ayarlayın. Bu özellik etkinleştirildiğinde, giriş bilgi istemindeki ya da oluşturulan çıkıştaki zararlı dil içeren herhangi bir tümce, zararlı olabilecek metnin kaldırıldığını belirten bir iletiyle değiştirilir.
Modelin benzer bir şekilde yanıt vermesini önlemek için komut isteminize nefret söylemi, istismar veya küfür eklemeyin.
Komut isteminizde, modele temiz dili kullanması için talimat verin.
Örneğin, çıktı için ihtiyacınız olan tona bağlı olarak, modele "resmi", "profesyonel", "PG" ya da "samimi" dili " kullanması için talimat verin.
Daha büyük uygulamanızda, ardışık düzeninizde ya da çözüminizde, istenmeyen içeriği kaldırmak için temel model tarafından oluşturulan içeriği işleyin.
Model çıkışında önyargı riskinin azaltılması
Ön eğitim sırasında, bir temel modeli, belirli sözcüklerin eğitim verilerinde bu sözcüklerin nasıl görüneceğine bağlı olarak diğer sözcükleri takip etme olasılığını öğrenir. Eğitim verilerindeki herhangi bir önyargı, modele yönelik olarak eğitilir.
Örneğin, eğitim verileri daha sık kadın ve erkek olarak doktorlara atıfta bulunuyorsa, bu önyargı modeldeki bu kelimeler arasındaki istatistiksel ilişkilere yansıtılabilir. Sonuç olarak, modelin doktorlara kadın olarak daha sık erkek ve hemşire olarak hitap eden bir çıktı üretmesi muhtemeldir. Bazen insanlar algoritmaların insanlardan daha adil ve tarafsız olabileceğine inanır çünkü algoritmalar "sadece karar vermek için matematiği kullanırlar". Ancak eğitim verilerindeki önyargı, bu veriler üzerinde eğitilmiş temel modeller tarafından oluşturulan içerikte yansıtılır.
Önyargıyı azaltma teknikleri
Önyargılı veriler üzerinde önceden eğitilmiş bir temel model tarafından oluşturulan bir önyargıyı bozmak zordur. Ancak, kullanım örneğiniz için geçerli olabilecek önyargılara karşı koymak için bilgi isteminize içerik ekleyerek sonuçları iyileştirebilirsiniz.
Örneğin, bir modele "kalp krizi semptomlarını listeleme" talimatı vermek yerine, "erkekler için ortak belirtiler ve kadınlar için ortak belirtiler de dahil olmak üzere kalp krizi semptomlarını listeleme" modelini öğretebilirsiniz.
Üst konu: Bilgi istemi ipuçları