Prowadzący: Karol Poznański [KP]
Gość: Karol Stryja [KS]
[KP] Czy głos pozwoli nam na rezygnację z klawiatury komputerowej? Czy asystenci głosowi będą mogli robić coś więcej niż sterować urządzeniami w domu? Czy wyszukiwarki głosowe zastąpią te, do których tak szybko przywykliśmy? Często słyszy się, że stoimy na progu głosowej rewolucji.
Nasz dzisiejszy gość uważa, że ta rewolucja już trwa.
W „Zwykłych historiach” zawsze gościmy wyjątkowe osoby, wyjątkowych gości, ale dziś po raz pierwszy mamy do czynienia z prawdziwym rewolucjonistą. Gościem „Zwykłych historii” jest Karol Stryja, członek prawdziwej rewolucji, rewolucji głosowej, która ogarnia w tej chwili światowy Internet, a przy okazji również jedna z najbardziej wpływowych osób w tak zwanym voice industry, czyli wśród tych ludzi, którzy zajmują się technologiami głosowymi i również wyjątkowo, inaczej niż zwykle, mamy więcej tak naprawdę niż jednego gościa, bo są z nami w studiu także Google Assistant i Alexa. Witamy was serdecznie, jeszcze tutaj dopuścimy was za chwilę do głosu. Hi Alexa!
[KS] Alexa już chce z nami rozmawiać.
[KP] Dokładnie.
[KS] Karol, witam cię serdecznie, witam was, drodzy… To są właśnie inteligentne głośniki. A tak zupełnie na serio, Karolu, jeszcze raz witam cię serdecznie, witam was, drodzy widzowie i słuchacze. Bo w końcu nadajemy też w podcaście.
[KP] To prawda i w podcaście nie będzie widać naszych zabawek, ale mam nadzieję, że będzie je bardzo dobrze słychać, natomiast chciałbym, żeby ta rozmowa służyła nie tylko osobom, które są zafascynowane nowymi technologiami i nadążają za tym, co się dzieje w tym naszym współczesnym świecie, ale również takim osobom jak ja, które nigdy nie były specjalnie early adopterami, czyli takimi osobami, które szybko się rzucały na nowinki technologiczne, tylko zawsze podchodziły z pewną taką nieśmiałością do wszystkich nowości, które się pojawiały na świecie. Na przykład nie miałem nigdy ZX Spectrum. A mogłem. Taki żart. Powiedz mi, dlaczego w ogóle jesteś zainteresowany i tak próbujesz nas wszystkich przekonać do tego, że głos to przyszłość Internetu i przyszłość komunikowania się z tymi wszystkimi inteligentnymi urządzeniami?
[KS] Ponieważ głos jest naszym interfejsem pierwszego wyboru. Rozmawiamy, zanim jeszcze nauczymy się czytać, zanim nauczymy się pisać. Głos jest dla nas najbardziej naturalną formą komunikacji. Dlaczego więc nie wykorzystać go w komunikacji z technologią?
[KP] No dobrze, ale znasz na pewno ten stary bardzo dowcip z inteligentną windą, w której Szkot nie mógł wybrać właściwego piętra, ponieważ winda go nie zrozumiała? I to był oczywiście żart, natomiast my widzimy, że te nowoczesne technologie, no, mają jednak bardzo duże bariery w dalszym ciągu.
[KS] Mają, ale te bariery się zmniejszają. I ja doskonale pamiętam ten case, o którym mówisz, czyli windy, która nie pozwala ci ruszyć z miejsca. Był nawet taki zabawny klip, gdzieś krążył w sieci, który pokazywał właśnie gościa, który oparł całe swoje życie o inteligentne głośniki i nagle po wizycie u dentysty okazało się, że nie może niczego zrobić. Ale prawda jest taka, że technologia przyspiesza niesamowicie i poziom tego, w jaki sposób głośniki nas rozumieją, postępuje niezwykle szybko. Dwa, trzy lata temu rzeczywiście rozpoznawalność głosu przez technologie była mniejsza niż ludzi. Teraz głośniki rozumieją naszą mowę ludzką dużo lepiej niż my sami naszą.
[KP] Naszą mowę ludzką angielską.
[KS] Angielską, tak, bo to wymaga czasu, żeby technologia nauczyła się języków. Wszystkich. Poszczególnych. Dialektów.
[KP] Ile według ciebie czasu potrzebujemy na to, żeby swobodnie komunikować się z tymi urządzeniami w języku polskim?
[KS] Już zaczynamy. Google Asystent mówi po polsku już od niemal dwóch lat.
[KP] No tak, ale z tym Googlem tutaj jeszcze sobie nie porozmawiamy.
[KS] Tak, to… Odrobinę dziwna sytuacja, ponieważ Google Asystent jest dostępny na wszystkich urządzeniach z Androidem. Również dostępny na telefonach z IOS-em, jeżeli zainstalujemy odpowiednią aplikację, natomiast nie jest jeszcze dostępny na takich wolnostojących urządzeniach jak tutaj widzicie.
[KP] No i rozumiem, że tutaj jesteśmy trochę zależni od tego, kiedy te światowe giganty zaczną rozpatrywać kolejne rynki pod kątem tego, że można uruchomić właśnie dodatkowe funkcjonalności, więc naciskajmy na nich w miarę naszych oczywiście skromnych możliwości. Natomiast ja chciałem się wytłumaczyć trochę z tego wstępu, który chyba cię zbił z pantałyku, kiedy powiedziałem, że jesteś rewolucjonistą, bo sam o sobie raczej bardziej chyba mówisz „ewangelistą” voice-owym. Dlatego, że stoimy na progu rewolucji. Rewolucji, która może spowodować, że zrezygnujemy z posługiwania się klawiaturą. Jak myślisz, jak daleko jesteśmy…
[KS] W dużej mierze tak. Karol, mieliśmy spotkanie dwa dni temu z Adamem Cheyerem. Adam Cheyer to jest wyjątkowa postać, jeżeli chodzi o całą… całą scenę voice-ową, ponieważ był człowiekiem, który stworzył najpierw Siri, które zostało sprzedane do Apple, a później stworzył Bixby, które kupiło Samsung. I rozmawialiśmy z nim na spotkaniu, które organizujemy co… co tydzień dla takiego międzynarodowego community voice-owego. I padło właśnie podczas tego jednego spotkania pytanie: czy voice zastąpi nam każdą klawiaturę i czy będziemy używać tylko i wyłącznie głosu do komunikacji z technologią? I prawda jest taka, że nie do końca, ponieważ są pewne sytuacje, kiedy ta klawiatura nam się przydaje. Kiedy ta myszka nam się przydaje do tego, żeby wybierać różne funkcje. Natomiast prawda jest taka, że gigantyczną zaletą voice’a jest to, że w momencie, kiedy wiemy, czego chcemy, możemy poprosić o to dużo, dużo szybciej niż klikając na klawiaturze.
[KP] Nie musimy się rozglądać, nie musimy się rozpraszać, więc oczywiście pewnie dużo łatwiej na przykład korzystać z tych połączeń i prowadząc samochód, chociaż nie zalecamy kłócenia się na przykład z Siri z różnych powodów, natomiast, no ja widzę takie ograniczenie bardzo podstawowe, kiedy korzystasz na przykład z wyszukiwarki, jakiejkolwiek, to po pierwsze – błyskawicznie znajdujesz bardzo dużo wyników, a po drugie – możesz bardzo szybko doprecyzować to, czego szukasz i znaleźć… a, na drugiej, trzeciej stronie wyszukiwania czasami, ale to dokładnie, czego szukasz. W wyszukiwaniu głosowym wydaje się, że jesteśmy bardzo daleko od takiej precyzji i takich satysfakcjonujących rezultatów.
[KS] Problem jest jeden. Cały voice to bardzo szybkie wprowadzanie informacji, bo dużo szybciej dyktujemy, niż wpisujemy coś na klawiaturze. Natomiast problemem była komunikacja w drugą stronę, to znaczy, jeżeli poproszę o wyniki, to zanim Alexa albo Siri albo Google Asystent nam je podyktuje, minie dużo więcej czasu, niż gdybyśmy zerknęli na ekran i zobaczyli te wyniki i je po prostu sczytali. Dlatego też w pierwszej kolejności, kiedy były prezentowane smart speakery, opierały się tylko i wyłącznie na głosie. Natomiast potem do smart speakerów zostały dodane ekrany. Te urządzenia, które tutaj widzicie, to smart speakery, które są wyposażone właśnie w ekran. Dzięki temu rzeczy, o które je prosimy, i na przykład wyniki wyszukiwania, są nie tylko dyktowane, ale są również prezentowane w formie graficznej. A jak wiemy, obraz mówi więcej niż tysiąc słów.
[KP] No tak, ale to niektórzy mogą powiedzieć, że wbrew pozorom pokazuje, no, niedostatki tej technologii, tak? No bo my wyobrażamy sobie, że jeżeli mamy się porozumiewać głosem, to powinniśmy też dostawać wszystko na głos. Na komendę. A tutaj się okazuje, że musimy się technikami wizualnymi podpierać jednak.
[KS] Hmm… Nie wychodzę z takiego założenia, Karol. To właśnie chodzi o to… Wiesz, ja jestem takim… Nie jestem radykałem. I nie twierdzę, że voice zastąpi wszystko. Uważam, że po prostu te technologie będą się ze sobą przenikały. Będziemy mieli wyświetlacze, będziemy mieli urządzenia, które… którymi będziemy sterować ręcznie, ale będziemy również mieli voice’a, z którego będziemy korzystali wtedy, kiedy to będzie wskazane i dla nas najwygodniejsze. Bo tak naprawdę w całej tej rewolucji głosowej, o której mówimy, chodzi przede wszystkim o wygodę.
[KP] Jak chcę sobie porozmawiać z tobą o naszych sekretnych różnych biznesowych planach, to mogę zostawić swojego iPhone’a w sąsiednim pokoju. Ale jak byśmy się spotkali u was w biurze czy gdzieś u ciebie w domu, gdzie są smart speakery, to nie możemy sobie porozmawiać spokojnie i dyskretnie?
[KS] Prywatność. To bardzo szerokie zagadnienie. Pamiętajcie o tym, że głośniki słuchają rzeczywiście nas i tego, co mówimy, ale one działają w ten sposób, że one są wrażliwe na tę komendę wzbudzającą, czyli albo na hasło „Alexa”, albo na hasło „OK Google”. One nie rejestrują niczego, co dzieje się, że tak powiem… [w tle odzywa się smart speaker] Widzicie, reagują na określone hasła wzbudzeniowe, natomiast nie rejestrują naszych rozmów, naszych dyskusji i tak dalej. Natomiast chciałbym wam uświadomić jedną rzecz. My zrezygnowaliśmy z prywatności już dużo, dużo, dużo wcześniej. I wyobraźcie sobie, że… I pomyślcie sobie, jak wiele prywatności odkrywacie chociażby w komunikatach, które wysyłacie sobie wzajemnie przez wszystkiego… wszelkiego rodzaju messengery, chaty, whatsappy i tak dalej. To jest po prostu wygodne i my zrezygnujemy z prywatności na rzecz naszej wygody. Karol, masz rację, możemy mieć pewne takie zastrzeżenia co do tego, czy ktoś nas słucha, ale z drugiej strony powiem tak: jeżeli macie zainstalowanego Instagrama, Facebooka w formie aplikacji, idę o zakład, że zdarzyły wam się takie sytuacje, że wypowiedzieliście jakieś magiczne słowo-klucz, a następnego dnia pokazała wam się reklama tej firmy.
[KP] No tak, to już jest tak zwana tajemnica poliszynela, w zasadzie wszyscy się takimi anegdotami posługujemy, ale mam inną dla ciebie anegdotę. Kolega mi parę dni temu powiedział, że się pokłócił z Siri. Bo chciał się połączyć z tatą, a Siri zapytała go „ale z którym?”. Co pokazuje, że w dalszym ciągu potrzebujemy z jednej strony nie tylko precyzji, w jaki sposób komunikujemy się z tymi urządzeniami, ale również precyzji na przykład w tym, w jaki sposób mamy opisane nasze kontakty.
[KS] Oczywiście.
[KP] Czyli to nie zdejmuje z nas całkowicie odpowiedzialności za to, żeby, no, jednak pewien rodzaj precyzji występował. I o tę precyzję chciałem cię zapytać, to znaczy: kiedy będziemy sobie rozmawiać z tymi wszystkimi naszymi komputerami, urządzeniami, smart speakerami w taki sposób, jak nasz jeden ze znanych astronautów w „Odysei kosmicznej” z HAL-em?
[KS] Karolu, to już dzieje się w duże mierze teraz. Natomiast myślę, że to jest kwestia kilku, kilkunastu lat. Jak popatrzysz sobie… Zobacz, że my żyjemy teraz w świecie, w którym się teraz obracamy. Tego świata nie było piętnaście lat temu. Mówię o komunikacji, mówię o niezależnym Internecie, mówię o podcastach, mówię o Internecie, o serwisach internetowych… Zobacz, że nie ma czegoś takiego już jak monopol mediów. Każdy może mieć swoją stację radiową, każdy może mieć swoją telewizję. Oczywiście z ograniczonymi zasięgami, w zależności od tego, co produkuje, ale świat zmienił się nie do poznania. Myślę, że to jest kwestia kilku, kilkunastu lat.
[KP] No właśnie, porozmawiajmy trochę o tej drugiej nodze technologii głosowej, że się tak wyrażę, bo ty również jesteś głosicielem tego, że w zasadzie podcast powinien zbłądzić pod strzechy, w zasadzie nie tylko powinniśmy słuchać, ale w miarę możliwości, jeżeli mamy coś ciekawego do powiedzenia, to również tworzyć podcasty. Nie masz takiego poczucia, że w pewnym momencie tu również pęknie taka bariera nasycenia, która spowoduje, że…
[KS] …że będzie tego za dużo?
[KP] Tak, że będziemy mówić trochę do siebie. W sensie: ci twórcy, tak? Na YouTube masz pełno filmów, których prawie nikt nie widział, za chwilę może być pełno podcastów, których prawie nikt nie słyszał.
[KS] No tak, ale co nam pozostaje innego? Zobacz, że ja nawet nie zachęcam do tego, żeby każdy nagrywał podcast, tylko żeby każdy znalazł medium, które jest dla niego najbardziej naturalne. Dlaczego ja nie nagrywam video? Dlatego, że po pierwsze mam niewyjściową twarz, po drugie – mnie w pewien sposób męczy cała ta otoczka, czyli kamery, to, ile trzeba rzeczy ogarnąć po to, żeby nagrać, wiesz, profesjonalny film na kilka ujęć, tak jak wy to… wy to robicie. Z drugiej strony nie potrafię też pisać tak jak ty długich, ciekawych, angażujących tekstów, więc w związku z tym, że lubię rozmawiać, zacząłem nagrywać podcasty i zacząłem się tymi podcastami interesować. Ale nie każdemu będę mówił, żeby nagrywał swój podcast. Dwa – masz rację co do tego, że tego contentu pojawia się dużo, dużo więcej. I tego nie odwrócimy, Karol. Będzie tego contentu jeszcze więcej. Natomiast prawda jest taka, że możesz dotrzeć z tym contentem do osób, które ten content autentycznie interesuje. I oczywiście będą twórcy, którzy będą mieli gigantyczne zasięgi, ale gwarantuję ci, że są też twórcy, którzy tworzą w określonych domenach bardzo specyficzny content i mają swoich stałych odbiorców. Popatrzmy na przykład na Maćka Okraszewskiego. Dział zagraniczny szczerze wam, drodzy widzowie, polecam. Jakie jest hasło Maćka Okraszewskiego, którym reklamuje swój podcast? „To polskiego czytelnika nie interesuje”. Bo słyszał od zawsze to hasło w redakcjach gazet i mediów tradycyjnych, w których pracował. A okazuje się, że jest wprost przeciwnie. Że ludzi interesują te rzeczy, o których Maciek mówi, a poza…
[KP] Widzisz…
[KS] I przepraszam, tylko skończę. I koniec końców Maciek mówi teraz, że on nie pracuje, bo on robi to, co zawsze lubił robić, a dzięki serwisom społecznościowym i Patronite’owi zarabia dwadzieścia tysięcy miesięcznie.
[KP] To jest bardzo ciekawy temat, który poruszyłeś, dlatego że ja widzę w tej niszowości taką nadzieję, dlatego że media ogólne, mainstreamowe, jakkolwiek to nazwiemy, rzeczywiście szermują takim argumentem, że coś jest nie za fajne. Jest taka dla polskiego czy rodzimego odbiorcy… jest taka zasada, która nie brzmi za ładnie i bardzo tu naszych słuchaczy za nią przepraszam i widzów, która bywa nazywana zasadą trupokilometrów, znaczy: im mniej ciał i im dalej od miejsca, w którym się znajdujemy, tym mniejsza szansa, że redakcja poda tę informację. Innymi słowy: wypadek samochodowy dziesięć kilometrów od nas jest dla nas bardziej interesujący niż duża katastrofa autobusu w Indiach, tak? Tak jesteśmy skonstruowani. Media niestety w taki sposób do tego podchodzą, natomiast ta niszowość, ona wydaje mi się szansą dlatego, że… no właśnie dlatego, że nigdzie nie można znaleźć tych treści chociażby, o których opowiada Maciek, tak? Ostatnio ktoś skarżył się na to, że nigdzie nie może przeczytać o strajku w Indiach, który był największym strajkiem w historii w ogóle ludzkości.
[KS] I pozdrówmy w tym miejscu Kubę Górnickiego i całe Outriders.
[KP] Tak, bo oni robią niesamowitą robotę właśnie w takich aspektach i w ogóle Outridersów wszystkim serdecznie polecam, bo to jest naprawdę niesamowite źródło informacji i pysznie, że ci ludzie są i że robią takie rzeczy. Ale to mi właśnie, nam chyba powinno uświadamiać, że no jesteśmy w takim miejscu, że możemy się skazać na niszowość i może nas prawie nikt nie słuchać, ale możemy z tej niszowości spróbować zrobić cnotę i mieć bardzo zacne grono followersów.
[KS] A właśnie to jest to, o czym mówisz. Wiesz, co oznacza niszowość? Zaangażowanie tych, którzy się już tym interesują.
[KP] Ja ostatnio się dowiedziałem… Ostatnio to nie, to już chyba ze dwa lata ma ta teoria, podobno jestem nanoinfluencerem.
[KS] Każdy z nas, kto publikuje cokolwiek w Internecie, na LinkedInie, na Instagramie i tak dalej, jest w jakiś sposób influencerem. Jeżeli cię oglądają dwie osoby, to przekazujesz im coś, tak?
[KP] Porozmawiajmy trochę jeszcze o tej rewolucji głosowej, na której czele w Polsce stoisz, ponieważ ostatnio wraz z Michałem, Michałem Stanisławkiem zostaliście, no, wyróżnieni takim tytułem top influencerów, jeśli chodzi właśnie o voice przez jeden z magazynów, który, no, śledzi bardzo uważnie to, co się dzieje na tym rynku. Znaleźliście się w towarzystwie ludzi z Google’a, z Amazona, największych organizatorów eventów, konferencji voice’owych. Jakie to jest uczucie? To jest takie wynagradzające za to, po tych wszystkich wysiłkach…?
[KS] Nie. Dla mnie, jeżeli pytasz, to jest… I tak samo z Michałem rozmawialiśmy na… na ten temat wczoraj… Dla nas to jest zobowiązanie. Bo wiesz, my… Jaka jest historia w ogóle tego, że my się tam znaleźliśmy? My na początku marca, jak zaczynała się cała ta pandemia, w związku z tym, że tym voicem się, wiesz, interesujemy i żyjemy tym od dłuższego czasu, też prowadzimy firmę, która się zajmuje aplikacjami głosowymi, prowadzimy mały startup, to zastanawialiśmy się, co można zrobić. Ponieważ wcześniej realizowaliśmy serię meetupów takich tradycyjnych i staraliśmy się opowiadać o voice. I na Twitterze padło jedno hasło zapoczątkowane przez Jana Koeniga, on jest founderem takiego startupu, który zajmuje się również technologiami voiceo’wymi: „chodźcie, spotkamy się na… na lunchu i pogadamy sobie”. Wszyscy siedzimy w domu, to pogadamy o voice. No i spotkaliśmy się za pierwszym razem. I klimat w ogóle był tak wyjątkowy, że doszliśmy z Michałem do wniosku, że „słuchaj, chodź to róbmy regularnie i postarajmy się zintegrować międzynarodowe community osób związanych z tą technologią”. I w ten sposób bez najmniejszego planu powstał Voice Lunch. Voice Lunch na tyle był ciekawy dla ludzi, którzy zajmują się tą technologią… Mamy kilka zasad. Po pierwsze – jesteśmy otwarci dla wszystkich. Po drugie – za Voice Lunchem nie stoi żadna sprzedaż, to znaczy, my nie pitchujemy żadnego ze swoich produktów, ofert i tak dalej, robimy to pro bono dla community. I po trzecie – rozmawiamy o tym, co nas interesuje. I rozmawiamy z developerami, osobami, które projektują konwersacje i tak dalej. To na tyle chwyciło, mówiąc kolokwialnie, że po kilku miesiącach działalności Voice Lunch ma już za sobą pięćdziesiąt spotkań, takich międzynarodowych, w których uczestniczy od czterdziestu do ponad stu osób z całego świata. Naszymi gośćmi są ludzie, którzy naprawdę zajmują się tą technologią od lat; tak jak wspomniałem, Adam Czajor czy różni autorzy książek związanych z technologiami voice’owymi, no ale przede wszystkim ta wspólnota jest tworzona przez ludzi. Ludzi, którzy potem przenoszą ten model tych spotkań na swój lokalny grunt. I Voice Lunch jest teraz obecny w dziesięciu krajach, począwszy od Brazylii przez Japonię, Stany Zjednoczone, Wielką Brytanię, Europę, Izrael, Indie…
[KP] No i w zasadzie, biorąc pod uwagę rozpiętość geograficzną, jest Voice Breakfastem, Voice Lunchem…
[KS] Tak, my się śmiejemy, że nieważne, o której godzinie, gdzieś na świecie jest czas na Voice Lunch. Ale wracając do twojego pytania: dla nas to jest gigantyczne zobowiązanie, bo my rzeczywiście znaleźliśmy się w grupie osób, które są określane jako te, które o voice mówią bardzo dużo na całym świecie. I teraz jest tylko i wyłącznie kwestia tego, jak my to teraz wykorzystamy i co zrobimy więcej dla ludzi i dla propagowania tej technologii całej.
[KP] Ja przepraszam za teatralną chrypę, ale prowadziłem szkolenie medialne i się trochę zużyłem w międzyczasie. Słuchaj, no zaprosiliśmy tutaj gości specjalnych, to może coś trochę opowiemy o nich i pokażemy ich jakieś możliwości.
[KS] Bardzo chętnie. Słuchajcie, tak jak wspominałem: Alexa echo dot, Alexa echo show, czyli dwa podstawowe urządzenia. Takie urządzenie, żebyście mieli świadomość, kosztuje kilkanaście czasem w promocji, czasami kilkadziesiąt euro. Póki co jeszcze niedostępne oficjalnie w Polsce, ale można je kupić przez niemieckiego Amazona. Na marginesie taka anegdota: wyobraź sobie, Karolu, że to małe urządzenie w 2017 roku było w okresie przedświątecznym najpopularniejszym przedmiotem na Amazonie.
[KP] OK.
[KS] I możecie mi wierzyć lub nie, ale te urządzenia są w kilkudziesięciu milionach domów już teraz w Stanach Zjednoczonych. Alexa echo dot, Alexa echo show, czyli smart speaker z połączonym… połączony z wyświetlaczem i Google Nest, czyli Asystent Google’a, też również połączony z ekranem. No i cóż, no i…
[KP] Przyłączą się do nas?
[KS] Oczywiście, że się przyłączą. Włączymy Alexę i możemy ją zapytać na przykład: Alexa, how are you today?
[ Alexa] I’m good … (dalej niezrozumiale)
[KS] OK., Jak widzicie, Alexa ma różne przemyślenia filozoficzne. Mogę ją zapytać o przeróżne rzeczy. Alexa, do you love me?
[Alexa] I don’t have human love figured out quite yet.
[KS] Alexa, what is the capital of Poland?
[The capital of Poland is Warsaw]
[KS] I zadałem teraz Alexie bardzo proste pytanie, czyli jak nazywa się… jak nazywa się stolica Polski. I sens w tym, słuchajcie, jest taki, że te głośniki to tak naprawdę warstwa dla Internetu, który znamy z przeglądarek. Jeżeli pomyślicie sobie w ten sposób, że możecie zapytać o dowolną rzecz, która jest w Wikipedii i nie musicie tego już googlować, tylko możecie, rozmawiając na przykład ze swoim dzieckiem, wykorzystać Alexę do tego, żeby opowiedzieć temu dziecku o tym, czym jest jakaś określona rzecz, to okazuje się, że smart speakery są kapitalnym uzupełnieniem domowego ogniska. A prawda jest taka, że smart speakery w obecnej chwili są wykorzystywane w bardzo prostych czynnościach.
[KP] I mają jednak właśnie taki, no, trochę problem z tymi abstrakcyjnymi pojęciami, tak? Bo bardzo często ich nie rozumieją, no mają te swoje ograniczenia. Mogę z nią pogadać?
[KS] Oczywiście.
[KP] Alexa, when you were born?
[Alexa] My birthday is November 6, 2014
[KP] Thank you.
[KS] Słuchajcie, prawda jest taka, że siedemdziesiąt procent ludzi, którzy teraz posiada smart speakery w domu, wykorzystuje je do podstawowych funkcji: sprawdzania czasu, sprawdzania pogody, puszczania muzyki…
[KP] No to zobaczmy. Alexa, how long should I boil eggs?
[Alexa] Boil for up to 6 minutes for soft boil, or about 8 to 10 minutes for hard boil.
[KP] Excellent, thank you.
[KS] Odpowiedź masz.
[KP] A zatem można rzeczywiście szybko sięgnąć do… no, może niezbyt skomplikowanych informacji, tak, ale jednak już wspomóc swoją pamięć zwłaszcza wtedy, kiedy mamy zajęte ręce, na przykład przy kuchni i chcemy o coś zapytać, coś nam przyszło do głowy. Jak według ciebie będzie wyglądał ten postęp, tak? No, Alexa nam powiedziała, że urodziła się sześć lat temu. Co będzie za sześć lat według ciebie?
[KS] Po pierwsze – skala adopcji, czyli tych urządzeń będzie niezwykle dużo. Po drugie – te urządzenia będą połączone ze sobą. Już teraz Amazon produkuje na przykład lodówkę albo mikrofalówkę, która jest połączona z Alexą i możemy ją sterować za pomocą głosu. Samsung po to kupił Bixby’ego, żeby do wszystkich urządzeń, które produkuje Samsung, a robi ich najwięcej na świecie, żebyś mógł do nich rozmawiać. A więc technologie głosowe będą przenikały po prostu naszą rzeczywistość. I zamiast klikać niektórych rzeczy, wyszukiwać, będziemy po prostu mówili. Będziemy mówili, co… co będzie miało się dziać. Technologie głosowe pojawią się w samochodach. Już Mercedes ma swojego asystenta wbudowanego, BMW ma wbudowanego swojego asystenta w technologię. Wszędzie tam, gdzie wygodniej jest coś o coś poprosić, będzie technologia głosowa.
[KP] I będą te sytuacje z filmów komediowych, gdzie nawigacja zacznie mówić „nie w tę stronę, głupku”?
[KS] Bardzo możliwe. Słuchajcie, prawda jest też taka, że technologie głosowe… Mawia się jedno, że every app will be a voice-app, sooner or later. Czyli każda aplikacja będzie aplikacją głosową.
[KP] Jak wygląda tutaj współpraca pomiędzy rozwojem tych technologii a sztuczną inteligencją?
[KS] To jest ze sobą całkowicie połączone, ponieważ za tym głośnikiem stoi właśnie sztuczna inteligencja i gigantyczne zasoby danych.
[KP] Czyli jak skarżyliśmy się parę lat temu na to, że Google Translate jest słaby dosyć, a teraz jest zdecydowanie lepszy, no to właśnie wykonała ogromną pracę ta sztuczna inteligencja, która stoi za tym mechanizmem…
[KS] Tak.
[KP] …która pozwala mu osiągać coraz lepsze rezultaty, chociaż oczywiście ciągle zdarzają się też dosyć komiczne błędy.
[KS] Pytasz się jeszcze o przyszłość. Nasz serdeczny znajomy z Holandii przeprowadził pewien eksperyment w domu osób starszych, umieszczając tam smart speakery i patrząc, w jaki sposób one wpłyną na funkcjonowanie tych ludzi. Co się okazało? Okazało się, że osoby starsze, które żyły same, trochę tak jak w tym filmie hollywoodzkim „Her” stwierdziły, że przestały czuć się samotne.
[KP] OK. Trochę…
[KS] [Wiedziałem, że to powiesz…
[KP] Tak, bo trochę ona jest pocieszająca, a trochę jest przerażająca w sumie. Dlatego, że technologia jednak, pomimo tego, że została stworzona po to, żeby nam pomóc, buduje też między nami mury dosyć istotne. I teraz jest pytanie, w jaki sposób możemy ją wykorzystać do tego, żeby te mury burzyć.
[KS] Karol, wszystko ma swoje dwie strony. Zobacz, ile nam dała technologia z jednej strony. Ja wiem, są ograniczenia, są patostreamingi, są, wiesz, case’y, gdzie ta technologia robi złe rzeczy. Ale zobacz, że tak naprawdę… Tak samo ja, pracując tutaj z polskim, mogę dotrzeć do każdej osoby na świecie przez Twittera czy przez jakąkolwiek inną, wiesz, platformę, i zaproponować jej spotkanie na Voice Lunchu, które nadajemy, wiesz, na cały świat i dołączają do nas osoby z wiesz, z całego globu. Plusy i minusy zawsze. Ja jestem, wiesz, ja jestem wychowankiem Gary’ego Vaynerchuka, który mówi: positivity allways wins.
[KP] Tak mi się skojarzyło, bo była ta teoria sześciu stopni oddalenia, tak, w zasadzie w tej chwili można powiedzieć, że w trzech krokach jesteśmy w stanie dotrzeć do każdego właśnie dzięki mediom społecznościowym.
[KS] No, no, najlepszy przykład to spotkanie z Adamem Cheyerem. Wyobraź sobie, że rozmawiamy z nim o technologiach głosowych, a on mówi „No pamiętam, siedzieliśmy właśnie ze Stevem, Stevem Jobbsem, u niego w domu i rozmawialiśmy o asystentach głosowych”.
[KP] No i tak właśnie tworzy się historia. Karol, dziękuję ci bardzo za wizytę w studiu. Naszym gościem był Karol Stryja, człowiek, który nauczy nas wszystkich, że klawiatura może być wsparciem, a nie głównym sposobem komunikacji ze światem.
[KS] To, to wielka przyjemność. Gdybyście chcieli dowiedzieć się czegokolwiek związanego właśnie ze smart speakerami, to dzwońcie, piszcie, z chęcią wam wyjaśnię, na czym polega właśnie ta nasza głosowa rewolucja.
[KP] Dziękuję ci bardzo.
[KS] Dzięki, Karol.
Transkrypcja: Texter.pl Marek Trenkler