Czytaj

arrow pointing down

Jak stworzyć narrację w stylu Davida Attenborough z AI? Przewodnik

Odkryj, jak stworzyć narrację w stylu Davida Attenborough za pomocą AI. Kompletny poradnik krok po kroku z narzędziami i praktycznymi wskazówkami!

Na tej stronie wykorzystujemy grafiki wygenerowane przy pomocy sztucznej inteligencji.

Poniższy artykuł jest uzupełnieniem dla filmu, który powstał na kanale Beyond AI. Zachęcamy do obejrzenia materiału wideo na naszym kanale, aby uzyskać pełniejszy obraz omawianych tematów oraz zobaczyć praktyczne przykłady zastosowania sztucznej inteligencji w codziennym życiu. Przejdź na kanał Beyond AI, aby odkryć więcej fascynujących treści związanych z AI!

Obejrzyj ten materiał na YouTube:

David Attenborough narratorem życia – eksperyment z AI

Dzisiaj opowiemy o bardzo ciekawym projekcie, który zrobił Charlie Holtz. Wykorzystał kilka technologii AI, w szczególności GPT Vision oraz Eleven Labs, aby stworzyć program, który obserwuje go przez kamerkę komputera i opowiada o jego życiu głosem Davida Attenborough, tak jakby to był film przyrodniczy.

Źródło: https://x.com/charliebholtz/status/1724815159590293764

Uruchom skrypt do generowania głosu samodzielnie

Dzisiaj pokażemy Wam, jak samodzielnie uruchomić ten skrypt (bo Charlie udostępnił go publicznie) oraz co zmienić, żeby narracja była po polsku.

1. Sklonuj repozytorium z GitHub

Aby uruchomić ten skrypt, musicie mieć komputer z Pythonem. Charlie podaje link do swojego GitHuba, gdzie umieścił projekt "narrator" - przejdź na GitHub.

Teraz wystarczy sklonować repozytorium, które udostępnił Charlie. Po wejściu do katalogu "narrator", trzeba zainstalować wszystkie wymagane biblioteki za pomocą prostego polecenia PIP.

<code>

‘ git clone https://github.com/cbh123/narrator.git

‘ cd narrator/

‘ pip install -r requirements.txt

</code>

2. Dostosuj polecenia do języka polskiego

Następnie, aby dostosować narrację do języka polskiego i użyć waszych kluczy dostępowych, musimy zmienić kilka rzeczy w plikach. Przede wszystkim w pliku narrator.py warto zmienić prompt, który jest używany do generowania opisu obrazka, na polski.

> "Jesteś Krystyną Czubówną. Opisz zdjęcie tak, jak zrobiłabyś to w filmie przyrodniczym. Bądź dowcipna. Nie powtarzaj się. Przygotuj krótki opis. Jeśli na zdjęciu będzie coś choć trochę śmiesznego, zrób z tego wielką sensację! Mów tylko po polsku."

Poza tym musimy dostosować parametry modelu do wywołania funkcji generującej audio, aby korzystać z modelu, który umożliwia generowanie tekstu w językach innych niż angielski, czyli “eleven_multilingual_v2”.

3. Wyeksportuj wartości kluczy w terminalu

Jedyne, co nam pozostaje, to wyeksportowanie w terminalu wartości trzech kluczy: klucza OpenAI API, klucza Eleven Labs API (gdzie również musimy się zarejestrować) oraz klucza wskazującego na konkretny głos, który chcemy wykorzystać.

Pamiętajmy, że klucze do zasobów Eleven Labs muszą być podawane w cudzysłowie.

4. Stwórz własny głos z Eleven Labs

Wystarczy zarejestrować się na stronie Eleven Labs, a następnie w zakładce Voice Lab stworzyć Add Generative Or Cloned Voice.

W darmowej wersji możemy stworzyć sztuczny głos, wchodząc w Voice Design. Wybieramy parametry, jak płeć, wiek oraz akcent i klikając Generate.

Mamy stworzony głos, teraz kopiujemy voice ID, które wyeksportujemy w terminalu, aby go użyć.

5. Uruchom pliki do robienia zdjęć i generowania głosu

Po tych zmianach wystarczy uruchomić dwa pliki w dwóch okienkach terminala: capture.py oraz narrator.py.

  • capture.py jest odpowiedzialny za zrzucanie co dwie sekundy zdjęcia z kamery komputera,
  • narrator.py jest odpowiedzialny za wysłanie tego zdjęcia do GPT-4 Vision, pobranie opisu i wygenerowanie głosu, który będzie narracją.

Niestety całość zajmuje dość długo, generowanie głosu trwa mniej więcej tyle, co jego odczytywanie. Trzeba uzbroić się w cierpliwość.

Posłuchaj wygenerowanych przez nas głosów!

Ten efekt odsłuchacie w filmie od tego momentu 4:29. Jest to głos wygenerowany, ale możemy użyć też płatnej wersji Eleven Labs, żeby załadować do niego dowolną próbkę głosu, np. swoją lub osoby o rozpoznawalnym głosie.

W naszym filmie od 5:25 zobaczysz, jak wygląda efekt, kiedy w celach edukacyjnych użyczyliśmy głosu Krystyny Czubówny. Efekt jest wręcz powalający! Dajcie znać pod filmem, co myślicie o tym eksperymencie!

Zapraszamy do odwiedzenia kanału Beyond AI, który jest poświęcony sztucznej inteligencji. Nasze hasło przewodnie to "Twój przewodnik po dynamicznym świecie AI". Odkryj fascynujące treści i bądź na bieżąco z najnowszymi trendami w dziedzinie AI!

Odwiedź Beyond AI na YouTube

Kanał Beyond AI jest tworzony przez specjalistów z firmy WEBSENSA, która od 2011 roku dostarcza rozwiązania AI dla czołowych przedstawicieli różnych branż.

Inne wpisy z tej serii

AI w codziennej pracy – jak zrobić prezentację w kilka minut? Sprawdziliśmy!

Odkryj, jak AI może pomóc w tworzeniu prezentacji na ostatnią chwilę. Poznaj narzędzia, które mogą uratować Cię w pracy, i dowiedz się, jak z nich korzystać!

DJI NEO: rewolucja dzięki AI, zmienili sposób używania dronów!

Poznaj DJI Neo, najmniejszy i najtańszy dron od DJI, który dzięki zaawansowanej AI zmienia sposób korzystania z dronów. Odkryj jego możliwości na kanale Beyond AI!