35,4791$% -0.01
36,7070€% 0.31
43,6623£% 0.75
3.062,84%0,33
4.994,00%-0,06
3496828฿%2.14082
ChatGPT’nin arkasındaki şirket olan OpenAI, açık kaynaklı Whisper konuşmayı metne dönüştürme programının yeni bir sürümü olan Whisper API’yi bugün başlattı.
Dakikası 0,006 ABD doları karşılığında Whisper, birden fazla dilden transkripsiyonun yanı sıra diğer dillerden İngilizceye çeviriye izin veren otomatik bir konuşma tanıma sistemidir. M4A, MP3, MP4, MPEG, MPGA, WAV ve WEBM gibi çeşitli formatlardaki dosyaları kabul eder.
Birçok şirket, Google, Amazon ve Meta gibi teknoloji devlerinin yazılım ve hizmetlerinin temelinde yer alan çok yetenekli konuşma tanıma sistemleri geliştirdi. Ancak OpenAI başkanı Greg Brockman, Whisper’ı farklı kılan şeyin, web’den toplanan çeşitli dillerde 680.000 saatlik veri üzerinde eğitilmiş olması olduğunu söylüyor. Ona göre, öğrenme süreci, belirli aksanların tanınmasının yanı sıra teknik terimlerin ve arka plan gürültüsünün ayırt edilmesini geliştirdi.
Brockman, şirketinin Whisper’ın modelini sınırlarına kadar optimize ettiğini söylüyor. Çok, çok daha hızlı ve son derece kullanışlı.
Bununla birlikte, Whisper’ın sınırlamaları vardır – özellikle bir sonraki kelimeyi tahmin etme söz konusu olduğunda. Sistem, büyük miktarda gürültülü veri üzerinde eğitildiğinden, OpenAI, Whisper’ın, muhtemelen konuşmayı yazıya dökerken bir sonraki kelimeyi tahmin etmeye çalıştığı için, yazıya dökülmemiş sözcükleri deşifrelerine dahil edebileceği konusunda uyarıyor.
Şu anda Whisper tüm dillerde eşit derecede iyi performans göstermiyor ve nispeten daha az eğitim verisine sahip olduğu dillerde hata oranı daha yüksek.
OpenAI, Whisper’ın transkripsiyon yeteneklerinin mevcut uygulamaları, ürünleri ve araçları iyileştireceğine inanıyor.Yapay zeka destekli dil öğrenme uygulaması Speak, Whisper’ın uygulama içinde sanal bir muhatapla yapılan görüşmeler için yeni modelini şimdiden kullanıyor.
OpenAI, konuşmayı metne dönüştürme pazarına girmeyi başarırsa, önemli karlar elde edebilir. Bir rapora göre, piyasa değeri 2021’de 2,2 milyar dolardan 2026’ya kadar 5,4 milyar dolara ulaşabilir.
Brockman, gerçekten o evrensel zeka olmayı istiyoruz dedi. Büyük bir esneklikle, her türlü verinizi – gerçekleştirmek istediğiniz her türlü işi – alıp çoğaltabilmek çok önemli.
kathimerini.gr