Czytaj

arrow pointing down

Iwona Białynicka-Birula – wywiad 1: sztuczna inteligencja w USA

Treściwy wywiad z Iwoną Białynicką-Birulą, ekspertką AI z doświadczeniem w firmach jak eBay, Google i Facebook. Rozmawiamy o sztucznej inteligencji w USA.

Na tej stronie wykorzystujemy grafiki wygenerowane przy pomocy sztucznej inteligencji.

W tym wpisie przedstawiamy transkrypcję wywiadu z Iwoną Białynicką-Birulą, który został opublikowany na naszym kanale YouTube w sierpniu 2024 roku.

Obejrzyj ten odcinek na YouTube:

Możesz też posłuchać rozmowy na platformach podcastowych:

Wywiad: Krajobraz sztucznej inteligencji w USA

[Ziemowit Buchalski] Witamy na kanale Beyond AI. Dzisiaj naszym gościem jest Iwona Białynicka-Birula, ekspertka od sztucznej inteligencji, współautorka książki modelowanie rzeczywistości, programistka w takich firmach jak eBay, Google czy Facebook.

[Iwona Białynicka-Birula] Cześć, dzięki za zaproszenie.

Dzięki, że je przyjęłaś. Zakres twoich doświadczeń jest przeogromny. Dzisiaj chcielibyśmy porozmawiać o twoich doświadczeniach z pracy, o przyszłości sztucznej inteligencji oraz o tym jak w różnych częściach świata się do niej podchodzi, więc może zacznijmy od początku.

Kiedy zaczęła się Twoja przygoda ze sztuczną inteligencją?

Właściwie od urodzenia, w tym sensie, że od małego pasjonowałam się komputerami i programowaniem. Natomiast wtedy, kiedy ja się urodziłam, to była taka zima sztucznej inteligencji, kiedy bardzo mało się tę technologię rozwijało. Właściwie była to domena filmów science fiction, a praktycznych zastosowań prawie nie było. I nawet kiedy studiowaliśmy informatykę, był wprawdzie wykład na temat sztucznej inteligencji, ale była to zupełnie inna sztuczna inteligencja niż teraz. Nie było to statystyczne uczenie maszynowe, tylko bardziej takie systemy eksperckie, więc nie za bardzo mi się to wtedy podobało i nie wydawało mi się, że tego typu systemy do czegokolwiek doprowadzą.

Dopiero przy okazji tej książki, o której wspomniałeś, którą napisałam pod koniec studiów – to był początek lat 2000. W ramach tej książki był rozdział na temat sieci neuronowych. Przygotowałam do niej program, który demonstrował, jak działa taka sieć neuronowa. Napisałam sieć, która rozpoznawała pismo ręczne. Wydawało mi się to po prostu magiczne, że coś takiego można zrobić, i chyba od wtedy zawsze chciałam nad tym pracować. Dopiero 10 lat później rozwój technologii dogonił moje ambicje.

To było bardzo dawno temu, prawie ćwierć wieku. Dzisiaj ta sztuczna inteligencja jest zupełnie inna. Widzimy, co potrafi Chat GPT, widzimy, w jaki sposób są kreowane obrazy, filmy i w jaki sposób możemy rozmawiać. Sztuczna inteligencja pozwala komputerom nas rozumieć. Od prostego programu rozpoznawania cyfr do dzisiejszego stanu wiedzy jest ogromna przepaść.

Według ciebie, co to w ogóle spowodowało, dzięki czemu osiągnęliśmy taki postęp?

Wydaje mi się, że w ogromnej większości był to postęp stopniowy, a nie seria przełomów. Chociażby dlatego, że technologia sieci neuronowych, którą wykorzystujemy teraz praktycznie do wszystkiego – do Chat GPT, do generowania filmów – fundamentalnie nie różni się od tej sieci, którą napisałam na potrzeby książki, oraz nawet od tych sieci, które były wynalezione w latach 70. i 80. Natomiast to, co się zmieniło, to ogromny postęp w mocy obliczeniowej. Sprzęt stał się wiele, wiele tysięcy razy potężniejszy. Postęp w dostępie do danych również był znaczący. Powstał internet i nagle znaleźliśmy bardzo dużo danych, które można wykorzystać.

Jeśli miałabym wymienić jeden przełom, który dla mnie był momentem „Aha”, to nastąpiło to w roku 2013, kiedy wyszły dwie prace, a wynikiem tej pracy był model znany jako Word2vec. Ludzie z Google, trenując model tylko na podstawie przewidywania następnego słowa lub brakującego słowa w tekście z internetu, osiągnęli przełom. Do tej pory wszystkie inne modele trzeba było trenować na danych oznaczonych przez ludzi, co było bardzo pracochłonne i nie pozwalało na produkcję dużych ilości takich danych. Natomiast tekstu w internecie jest bardzo dużo, więc to było jedno. [1] [2]

Źródło: https://arxiv.org/pdf/1301.3781
Źródło: https://arxiv.org/pdf/1310.4546

Czyli możliwe stało się trenowanie modeli na podstawie już zebranych danych, bez konieczności specjalnego przygotowywania ich.

Co więcej, okazało się, co zaskoczyło nawet autorów tych prac, że model nauczył się nie tylko powierzchownego przewidywania następnego słowa, ale zbudował sobie model świata. Nauczył się, jakie miasta są stolicami jakich państw, jakie drużyny reprezentują jakie miasta w jakim sporcie. Nauczył się dużo więcej, niż tylko kontynuować tekst. Tu już było widać, czym jest właściwie Chat GPT – model nauczony na bardzo dużej ilości tekstu, który, przewidując, co będzie dalej w tekście, jest w stanie zbudować model świata, rozwiązywać różne zagadnienia, problemy z olimpiady matematycznej, pisać przepisy i doradzać w sprawie ubrań.

W momencie, kiedy wyjechałaś z Polski i przeprowadziłaś się za granicę, zaczęłaś pracować u gigantów, między innymi wykorzystując sztuczną inteligencję w projektach. Czy mogłabyś opowiedzieć więcej na temat swoich doświadczeń, co tam robiłaś, jakie projekty i na jaką skalę?

To może przytoczę kilka, bo pracowałam nad wieloma różnymi. Jednym z najciekawszych moim zdaniem był projekt zaraz po przełomie związanym z Word2vec. Stwierdziłam wtedy, że trzeba pracować nad deep learning, ponieważ to jest przyszłość. Trafiłam do Google, do organizacji Research and Machine Intelligence, która zajmowała się nie tyle praktycznymi zastosowaniami, co badaniem i posuwaniem tej technologii do przodu. Obserwowaliśmy wtedy trend, który teraz również jest widoczny – zmniejszenie potężnych modeli działających dobrze w chmurze, aby można je było uruchomić na małych urządzeniach. Postawiliśmy sobie za cel zmieścić bardzo wielkie modele, które były konwolucyjnymi sieciami neuronowymi do rozpoznawania obrazów, na małym aparacie fotograficznym. Celem było, aby aparat sam wiedział, kiedy dzieje się coś ciekawego, i robił wtedy zdjęcie.

Źródło: https://towardsdatascience.com/word2vec-research-paper-explained-205cb7eecc30

Google miał projekt, aby wprowadzić takie urządzenie na rynek. Pracowałaś w sekcji software’owej, czyli przygotowywania oprogramowania w oparciu o sztuczną inteligencję i minimalizację ogromnych modeli, aby się zmieściły. Czy to się udało?

Do pewnego stopnia tak. W końcu powstało urządzenie, które było dostępne na rynku o nazwie Google Clips. Jednak ten produkt odniósł komercyjną klęskę, ponieważ jego celem nie było stworzenie urządzenia konsumenckiego, które naprawdę by się komuś przydało, ale zobaczenie, jak bardzo można popchnąć tę technologię. Dlatego nie było to coś przydatnego dla konsumentów. I dokładnie coś takiego się dzieje z firmami jak Humane, która wypuściła AI PIN albo Rabbit R1. Podobnie było w Google, ktoś stwierdził, że za dużo pieniędzy na to idzie, trzeba to sprzedać i utopić jeszcze więcej pieniędzy. [3] [4] [5]

Źródło: https://www.theverge.com/2018/2/27/17055618/google-clips-smart-camera-review
Źródło: https://www.theverge.com/24126502/humane-ai-pin-review
Źródło: https://www.theverge.com/2024/5/2/24147159/rabbit-r1-review-ai-gadget

Czyli tam był taki pomysł, że mamy technologię, zróbmy z niej produkt, może się uda, może się nie uda. Podobnie było z Google Glass, produktami, które się nie przyjęły, ale technologicznie działały. Praca była ciekawa, chociaż nad projektem, który nie osiągnął komercyjnego sukcesu.

A jakie inne projekty, być może w innych firmach, również związane ze sztuczną inteligencją, wykonywałaś?

No więc może opowiem o tym najnowszym, nad którym teraz cały czas jeszcze pracuję. Pracuję w firmie mniejszej, już nie w takim gigancie, natomiast w szybko rosnącym startupie o nazwie Cresta, który jest już unicornem. Tak, już jest unicornem, natomiast jeszcze nie mamy takiej wielkiej skali. Budujemy oprogramowanie dla centrów obsługi klienta oparte o sztuczną inteligencję. Fascynujące jest dla mnie, jak wiele generatywne AI zmieniło w tym kierunku, i ten projekt to chyba bardzo dobrze demonstruje. [6]

Ponieważ w czym jest problem? Problem w każdym centrum obsługi klienta jest taki, że firma chce wykrywać, że coś się wydarzyło w rozmowie, i to coś jest bardzo różne w zależności od firmy. Jeśli jest to linia lotnicza, może chcieć wykrywać, kiedy klient chce zmienić sobie rezerwację na samolot. Albo jeśli jest bankiem, może chcieć wykrywać, kiedy klient mówi, że nie chce spłacić pożyczki. Do bardzo niedawna odbywało się to w ten sposób, że aby zbudować taki model, trzeba było bardzo dużo pracy ludzkiej, zarówno takiej nisko wykwalifikowanej, jak i wysoko wykwalifikowanej. Ludzie nisko wykwalifikowani czytali te rozmowy i oznaczali, robili supervised learning, czyli mówili: „Tu to jest przykład pozytywny, tu negatywny”.

Wszystko po to, żeby wytrenować model, który będzie następnie uruchomiony podczas rozmowy telefonicznej. Będzie podsłuchiwał tę rozmowę i pokazywał agentowi ją przeprowadzającemu, czy wypowiedział jakąś formułkę, albo czy zadał jakieś dodatkowe pytanie, czy dokonał próby sprzedaży, albo jak radzi sobie z odmową.

I żeby móc taki model wytrenować… Rozumiem, że są różne podejścia. Jedno polegało na tym, żeby przygotować cały zestaw danych. A te nowsze, na czym polegają?

No więc w nowszych były dwa elementy: trzeba było zebrać ten zestaw danych, a potem trzeba było specjalistów właściwie od machine learning, żeby wytrenować wyspecjalizowane modele. I odbywa się to w ten sposób: w pierwszej kolejności automatycznie budujemy ten prompt dla generatywnego AI. Ponieważ wydawało się, że coś takiego jak, no powiedzmy, czy agent wyraził empatię, no to wystarczy zapytać GPT, czy w tym zdaniu agent wyraził empatię. Ale co się wtedy okazuje? Że każdy z naszych klientów ma zupełnie co innego na myśli, jeśli mówi „empatia”. Więc zaczynamy od tego, że generatywne AI przepytuje naszych klientów, co konkretnie mają na myśli, podając im przykłady i pytając, czy są to przykłady pozytywne, czy negatywne. Tylko że robi to zupełnie automatycznie maszyna. No i potem, jak już mamy przygotowany taki prompt, możemy za pomocą znowu GPT oznaczyć bardzo dużo przykładów. Nie możemy bezpośrednio takiego modelu zastosować oczywiście w produkcji, ponieważ mamy miliony, miliony rozmów dziennie i to po prostu byłoby bardzo kosztowne. Ale model może nam oznaczyć zbiór. No i potem już możemy wytrenować automatycznie dużo tańszy model, który będzie te rzeczy wykrywał

Dla każdego klienta przygotowujecie specjalistyczny model, który jest do niego dostosowany?

Tak, z tym że teraz właśnie klient może sobie to zrobić sam w naszej platformie self-service, więc my możemy w małym składzie ludzi oferować tę ofertę bardzo dużej liczbie klientów.

W tym miejscu rozmawialiśmy o pracy przy AI w USA, tę część rozmowy przeczytasz w oddzielnym wpisie – klik.

Jakie są twoje plany na przyszłość w kontekście badań nad sztuczną inteligencją? Jak ty widzisz swoją przyszłość?

W ogóle trudno przewidzieć, co będzie w przyszłości. Natomiast, no widzę takie trendy teraz, dwa trendy właściwie. W kierunku mniejszych, ale bardziej wyspecjalizowanych modeli oraz w kierunku agentów. Więc to, co widzieliśmy w 2023, to było takie zachłyśnięcie się możliwościami GPT i innych, podobnych modeli, na przykład firmy Anthropic, które były dostępne przez API. I generalnie nagle mieliśmy, mogliśmy wykonywać różne zadania, które do tej pory były domeną pracy człowieka.

Natomiast przez rok wybudowaliśmy bardzo dużo różnych zależności od tych modeli do naszych systemów. I okazało się, że no po pierwsze jest to jednak dosyć kosztowne, płaci się za te tokeny, po drugie jest to dosyć ryzykowne, ponieważ OpenAI w każdym momencie może się rozpaść, jest to dosyć firma mało stabilna. Poza tym oni cały czas zmieniają te modele i może się okazać, że to, co zbudowaliśmy wokół jakiegoś modelu, już nie działa, bo oni tam coś tam podmienili. I z różnych tych powodów dużo bardziej się opłaca mieć własny model.

Jest to teraz możliwe, ponieważ mamy dostęp do tych opensourcowych modeli, takich jak Mistral, które są dużo mniejsze i można je dostosować, czyli za pomocą małej liczby danych, które też mogą być wygenerowane przez większy model, można je dostosować do danego zadania. I to jest szalenie opłacalne, ponieważ takie modele stają się 100 razy…No akurat w naszym przypadku obliczyli, że jest około 100 razy mniej kosztowne niż korzystanie z GPT, powiedzmy 4, oraz mamy nad nimi pełną kontrolę.

A jak z jakością?

Jakość jest jeszcze lepsza, ponieważ one są dostosowane do konkretnego zadania. Więc jak coś jest do wszystkiego, to jest do niczego – taka reklama kiedyś była. Natomiast jak model bardzo konkretnie dostosować do danego zadania, to często staje się jeszcze dużo bardziej dokładny.

Czyli takie dostrojone modele, na przykład, które dobrze rozumieją rozmowy bankowe albo rozmowy w linii lotniczej, są przyszłością, a nawet teraźniejszością.

Teraz głównie nad tym pracujemy. Powstaje właśnie taki trend, że wszystkie te firmy trenują takie adaptery, czyli właściwie nie trenują wszystkich wag takiego modelu, tylko bardzo mały podzbiór. I wtedy można bardzo dużo mieć takich bardzo specjalistycznych modeli. Więc myślę, że nad tym będę spędzać teraz dużo czasu. Oraz inny taki trend, bardzo moim zdaniem fascynujący, to są te agenty, takie sztucznointeligentne. Czyli do tej pory wyniki sztucznej inteligencji generatywnej: GPT napisał albo DALL-E coś narysował, oglądając obrazek, który wygenerował. Natomiast coraz bardziej można teraz te systemy podłączać do innych systemów. Na przykład, można dać modelowi dostęp do wyszukiwarki i do API biura podróży i do API przewidywania pogody i powiedzieć: „Zaplanuj mi wycieczkę”. I ten model już może pójść tam sobie sprawdzić ceny biletów, może zobaczyć, gdzie na świecie jest ładna pogoda, gdzie są jakieś ładne widoki, przyjść już mi zaproponować całą wycieczkę, albo nawet jeśli ufamy takiemu modelowi, ją kupić w naszym imieniu.

To zwłaszcza jest obiecujące w kontekście telefonów komórkowych, które są interfejsem, z którego korzysta większość ludzi i które są jeszcze jakby mozolniejsze w obsłudze niż komputery, gdzie jest tylko ten jeden ekran, taki mały. Budowanie do Apple i do Androida tych takich agentów, które będą wszystko robiły, to będzie absolutny przełom, jeśli chodzi o komunikację z komputerem, ponieważ będziemy wszystko mówić tylko do komputerów, tak jak w Star Treku, i one to będą robiły za nas wszystko.

Czyli przewidujesz, że w końcu Siri czy inny asystent głosowy w telefonie zacznie wykonywać to, co my chcemy, żeby on wykonał, bo będzie wyspecjalizowany, korzystał z wyspecjalizowanych agentów, którzy będą potrafili albo sprawdzić pogodę, albo zamówić nocleg w hotelu, czy też wyszukać wydarzenia w naszym mieście.

A jakbyś się miała cofnąć te ponad 20 lat temu, kiedy tworzyłaś, pisałaś książkę, i czy wtedy w ogóle przewidywałaś, co się takiego wydarzy i to, że to pójdzie w tę stronę? I czy ta Iwona w roku 2000 w ogóle marzyła o tym, co dzisiaj się dzieje, związanego z tak dużym rozwojem technologii, którą teraz obserwujesz?

Na pewno marzyłam o niektórych rzeczach. Na pewno o tym, że sieci neuronowe się przyjmą i że w ogóle, cofając się nawet od sieci, że to statystyczne podejście oparte o uczenie się z danych, że to ostatecznie wygra jako taki paradygmat. No to miałam nadzieję i stawiałam na to, natomiast oczywiście wielu rzeczy trudno było przewidzieć. Nie przewidziałam tego, że pasja grania w gry komputerowe, w szczególności strzelanki, do tego ostatecznie doprowadzi. No bo doprowadziły do rozwoju tych kart graficznych, które się okazało, przypadkiem świetnie się też nadają do sieci neuronowych.

Nie przewidziałam też tego właśnie, że to przewidywanie następnego słowa doprowadzi do modeli uniwersalnych, czyli takich, które nie są wykształcone w jakimś konkretnym celu, ale są w stanie rozwiązywać ogólne problemy, i że potem te modele będzie można stosować do innych rzeczy.

Czyli że taki algorytm, który bierze i przewiduje następne słowo, tak naprawdę doprowadzi do stworzenia modelu, który rozumie język, rozumie semantykę i który można potem wykorzystać w wielu, wielu innych zastosowaniach.

Tak, dokładnie.

Jesteśmy dzisiaj, jest teraźniejszość, i pójdźmy 10 lat do przodu. Co się wydarzy?

P(doom)! [śmiech]

Co się wydarzy? No bardzo trudno, tego trudno przewidzieć. Właśnie mówię o tych trendach takich raczej krótkowzrocznych, typu dostrajanie i agenci. A co będzie dalej? No to chyba nikt nie jest w stanie tego przewidzieć.

Co może odegrać ogromną rolę, to postęp w medycynie, ponieważ możemy naprawdę doprowadzić w pewnym momencie do tego, że już ludzie nie będą umierać. Chyba że w wypadkach, ale na przykład nie ze starości, i wtedy chyba trzeba będzie wymyślić może zupełnie inne modele społeczne dla tej ludzkości, ponieważ bardzo dużo w naszej cywilizacji się opiera o to, że jednak jest ten taki cykl rodzenia się, umierania.

Wydaje mi się, że może uda nam się rozwiązać, zbudować modele, które są w stanie rozwiązywać nowe problemy. Tego jeszcze nie mamy, mimo że się może tak wydawać, że taki czat GPT, dajemy mu zadanie z olimpiady matematycznej, on je rozwiązuje. Co znaczy, że w ogóle może teorię względności od nowa wymyślić? To nie jest prawda, one nie nadają się specjalnie dobrze do rozwiązywania problemów, które są zbyt różne od tego, co już widziały, więc tak naprawdę te modele te... nie są w stanie posunąć do przodu nauki, natomiast dużo ludzi nad tym pracuje, żeby umożliwić takie rozumowanie w tych modelach, i to też mógłby być wielki przełom, ponieważ modele mogłyby zacząć naprawdę posuwać naukę do przodu.

No i może jeszcze jednym elementem takim jest robotyka. W tej chwili te modele strasznie, strasznie kiepsko sobie radzą z interakcją z fizycznym światem. Cały czas nie możemy stworzyć samochodów autonomicznych na dużą, ale mimo że akurat prowadzenie samochodu jest stosunkowo łatwym dla człowieka problemem, nie mówiąc o różnych innych takich czynnościach, jak “pójdź i włożyć talerze do zmywarki”, to już roboty se bardzo ciężko z tym radzą, natomiast też dużo jest postępu w tej dziedzinie, i jeśli dalej ten postęp pójdzie w tym kierunku, to będziemy mieli tych agentów nie tylko w komputerze albo w komórce, ale też takich, które nam pomogą w naszym codziennym życiu.

Czyli włożą brudne naczynia do zmywarki, wyjmą czyste i odkurzą jeszcze...

I odkurzą jeszcze i podadzą kawę.

Tym optymistycznym akcentem kończymy naszą rozmowę. Bardzo ci dziękuję za udział w naszym podcaście.

Dziękuję bardzo, bardzo mi było miło.

Przeczytaj drugą część wywiadu w oddzielnym wpisie – klik. Rozmawiamy w niej o specyfice pracy przy sztucznej inteligencji w USA.

Czy wiesz, że... ...subskrybenci Beyond AI są o 50% bardziej odporni na zagubienie się w rozmowach o AI? Bądź tym, który wie, o co chodzi – kliknij "subskrybuj" na naszym kanale

Odwiedź nasz kanał YouTube!

To była transkrypcja jednego z odcinków na naszym kanale YouTube. Jeśli chcesz usłyszeć więcej rozmów i komentarzy na temat sztucznej inteligencji – zapraszamy na kanał Beyond AI.

Odwiedź Beyond AI na YouTube

Kanał Beyond AI jest tworzony przez specjalistów z firmy WEBSENSA, która od 2011 roku dostarcza rozwiązania AI dla czołowych przedstawicieli różnych branż.

Inne wpisy z tej serii

Jak polskie firmy używają sztucznej inteligencji? Retail Trends 2024

Jak o sztucznej inteligencji wypowiadają się liderzy rynku Retail w Polsce? Sprawdź wywiady z najciekawszymi gośćmi Retail Trends 2024!

Technologia Oczami Niewidomej: AI w Służbie Dostępności

Technologia Oczami Niewidomej: AI w Służbie Dostępności. Zobacz, jak sztuczna inteligencja pomaga niewidomym w codziennym życiu.