vit_r: default (vit_r)
[personal profile] vit_r
[livejournal.com profile] ivan_gandhi нашёл очень поучительный пример, на котором любой может прикоснуться к новому волшебному миру, воспеваемому [livejournal.com profile] ailev.

Итак, задача простая: берём строчку «Gasthaus zur Bundesländern» и пытаемся первести на русский.

Советую взять яндекс как более умный. И очень рекомендую печатать руками, следя за превращениями в соседнем окне.

Слева стоит «Gasthaus» справа вполне сносный переовд.

Теперь по буквам вводим « zur» и смотрим что происходит с первым словом в переводе.

Ничего удивительного. Хоть, в Яндекс и введена грамматика, но сочетание «Gasthaus zur» относится к невозможным в стандартных правилах хохдойча и алгоритм сваливается на другую ветку.

Теперь добавим «Bundesländern». Опять же по буквам, потому что слово составное и алгоритм на ходу меняет предположение.

(«ä» можно записать как «ae»)

Но это ещё не всё.

Вернёмся к первоначальному состоянию и напечатаем
«Gasthaus "», начав название гостиницы с кавычек.

Алгоритм опять соскакивает на другую ветку, давая иной результат.

Наиболее близкий переод получается при введении строчки «Gasthaus "Zur Bundesländern"», превращающейся в «Гостевой Дом "На Землях"».

Прошу заметить, кроме общего хохдойча существуют множество диалектов, немного отличающихся по правописанию и грамматике. И это, как и выведенные на ходу авторами англицизмы, часто попадает во вполне литературные тексты.

Если перевести эмоции в словестную форму, статистические алгоритмы будут валится на граничных случаях. Причём валится так, что вытаскивать их оттуда смогут только специально обученные маги.

Маги потому, что правила, созданные в результате глубокого нейронального обучения, получаются чёрным ящиком с неизвестными побочными эффектами.

Так что, будут безводительные грузовики мчать из конца в конец Штатов днём и ночью, не останавливаясь, не уставая, ни сворачивая с пути. А в каждом, в удобном купе без руля и педалей, разместят оператора перезапуска, который при аварийной остановке на трассе будет открывать особую панель и жать на три заветные кнопки, давая одновременно через голосовое управления пару совершенно не имеющих смысла фраз, позволяющих умному автоматическому алгоритму выйти из ступора.

Если современный немецкий поезд ICE встал посреди дороги и машинист объявил о небольших технических проблемах, не удивляйтесь. Там, в самой голове поезда, человек устал бороться с софтверными ошибками простыми способами, нажал на кнопку «Reset» и ждёт, когда система поднимится, придёт в рабочее состояние и, может быть, забудет о прозошедшем сбое.

И это простейший алгоритм, проверенный квалифицированными специалистами, прекрасно видящими его внутренности. С тёмными результатами статистического обучения на неизвестных примерах поможет только настоящая магия.

Можно, конечно, начать рассказывать про то, что, когда компьютеры придут к власти, всех заставят писать правильно и переходить дорого строго на зелёный. Ни в первый раз человечество подстраивается под дурацкие интерфейсы.

Однако, грамотность как раз падает и алгоритмы семантического анализа будут всё чаще натыкаться на слова, исправленные автокорректорами с неправильных на не подходящие по смыслу.

Нас ждёт интересное будущее.

Date: 2016-06-01 10:56 am (UTC)
From: [identity profile] permea-kra.livejournal.com
>Маги потому, что правила, созданные в результате глубокого нейронального обучения, получаются чёрным ящиком с неизвестными побочными эффектами.

Праздный вопрос - что мешает использовать методы, дающие вполне легко интерпретируемые модели? Например

https://en.wikipedia.org/wiki/Support_vector_machine
https://en.wikipedia.org/wiki/K-means_clustering
https://en.wikipedia.org/wiki/Decision_tree_learning

Date: 2016-06-01 11:02 am (UTC)
From: [identity profile] vit-r.livejournal.com
В чём смысл? Модель, созданную обучением, надо переводить на нормальный человеческий язык. Учёные не ищут ответ на задачу, а пытаются подвести структурированные логические выводы под то, что им подсказала интуиция.

Статистические методы создают непрозрачные системы.

Date: 2016-06-01 11:17 am (UTC)
From: [identity profile] permea-kra.livejournal.com
>В чём смысл? Модель, созданную обучением, надо переводить на нормальный человеческий язык.

В том, что такие модели допускают вполне понятную интерпретацию и прозрачно переводятся на человеческий язык. Те же decision tree learning порождают просто дерево решений, которое даже переводить особо не надо.

От нейронных сетей в machine learning потому и стараются держаться подальше, что результат очень тяжело интерпретировать. А в вышеназванных примерах все достаточно наглядно, если хоть немного разобраться.

Date: 2016-06-01 12:21 pm (UTC)
From: [identity profile] vit-r.livejournal.com
Можно пример "прозрачного перевода на человеческий язык"? Для какой-нибудь задачи с многозначностью решений, зависимых от контекста.

Date: 2016-06-01 02:58 pm (UTC)
From: [identity profile] permea-kra.livejournal.com
Насчет многозначности решений - что вы под эти понимаете? Я приведу пример интерпретации, про который знаю.

Есть такая область, как поиск новых лекарств. Один из подходов, как это можно сделать:

1) берется большая выборка молекул, обладающих нужной лекарственной активностью.

2) Их поверхность триангулируется. Дальше на поверхности выбираются ключевые точки ('выпуклости' и 'впуклости') Для каждой вычисляются некоторые характеристики (электростатический потенциал)

3) Дальше уровни потенциала дискретизируются.

4) Генерируется список двоек, троек, четверок точек. каждая характеризуется (дискретизированным) зарядом точек, углами и расстояниями. Все это безобразие тоже дискретизируется.

5) строится табличка с колонками: молекула - активность - имеющиеся двойки-тройки-четверки. Количество двоек-троек-четверок - это признак.

6) Собственно, machine learning . Наводится корреляция между активностью и двойками-тройками-четверками.

7) любую входящую молекулу можно теперь классифицировать, посмотрев, куда её положит корреляция. Можно это делать нейронными сетями, но так никто не делает. Обычно используют что-то из того, на что я дал ссылки, или близкое идеологически. Причем предпочтение отдается той модели, которая взяла минимум признаков.

Интерпретация такой модели проста - приложив двойки-тройки-четверки и корреляцию можно увидеть, какие участки молекулы отвечают за активность, и какие у неё в этом месте свойства. В некоторых случаях будет еще и видно, каких участков быть не должно.


Понятное дело, что черный ящик нейросети с учетом всех входов интерпретировать не получится. Поэтому нейросети и стараются не использовать.

Date: 2016-06-01 04:04 pm (UTC)
From: [identity profile] vit-r.livejournal.com
Ну это же совсем другая задача. Тут двойка может быть двойкой, а может тройкой, если через две позиции стоят четыре и шесть. Или десяткой, если рядом два и дальше последовательность из троек и пятёрок.

Date: 2016-06-01 04:27 pm (UTC)
From: [identity profile] permea-kra.livejournal.com
А вы вашу задачу назовите =) Но в целом, насколько мне известно, нейронные сети все-таки не любят.

Date: 2016-06-01 04:34 pm (UTC)
From: [identity profile] vit-r.livejournal.com
Ну тут же пример с демонстрацией. Кавалерийским наскоком такого не взять.

Date: 2016-06-01 05:50 pm (UTC)
From: [identity profile] permea-kra.livejournal.com
С какой именно демонстрацией? Ткните, пожалуйста, пальцем.

Если вы про машинный перевод, то там удовлетворительного результата не будет очень долго, скорее всего в течении всей нашей жизни. И дело не в специфике машинного обучения, а в отсутствии внятной семантической модели естественного языка. По этому поводу я не питаю иллюзий. Точно так же я не питаю иллюзий по поводу перспектив автоматических автомобилей - машинное зрение все еще в пеленках.

Но, мнэ, зацикленность общественности на нейронных сетях - она от необразованности. В реальности их стараются не использовать - именно по причине трудностей с интерпретацией модели и оценки её качества. Люди не дураки, об этом уже подумали.

Date: 2016-06-01 06:55 pm (UTC)
From: [identity profile] vit-r.livejournal.com
В целом - да, но зацикленность на нейронных сетях оттого, что они производят громкие бесполезные результаты. Типа квази-экспрессионистских рисунков. И развиваться это будет. Потому что там деньги.

Date: 2016-06-01 07:01 pm (UTC)
From: [identity profile] permea-kra.livejournal.com
Будет, конечно. Там, где это работает, а ничего более осмысленного нет. Насколько я знаю, это, например, околофинансовая деятельность.

Date: 2016-06-01 07:06 pm (UTC)
ext_646638: (Default)
From: [identity profile] rdia.livejournal.com
> отсутствии внятной семантической модели естественного языка.

Язык, кстати, непрерывно меняется.

Date: 2016-06-01 07:10 pm (UTC)
From: [identity profile] permea-kra.livejournal.com
Ну да, это одно из причин.

Date: 2016-06-01 12:55 pm (UTC)
From: [personal profile] alll
> Если перевести эмоции в словестную форму, статистические алгоритмы будут валится на граничных случаях. Причём валится так, что вытаскивать их оттуда смогут только специально обученные маги.

Ну надо же, ну совсем как человеки. Например в армии можно частенько наблюдать, как новобранца из внезапной тупизны целительными пенделями вытаскивает специально обученный маг ака унтер-офицер. Да и удивительными происшествиями с водителями-человеками на граничных и не очень случаях битком набит тот же ютуб, слава авторегистраторам.

Date: 2016-06-02 12:28 am (UTC)
ext_646638: (Default)
From: [identity profile] rdia.livejournal.com
Да. И вот тут вопрос - сделает искусственная нейросеть больше ошибок, чем естественная, или меньше. :-) Т.е. нужно тоньше подходить, тоньше.

Date: 2016-06-01 01:00 pm (UTC)
From: [identity profile] anonim-legion.livejournal.com
А хотите предсказание?

Других способов нет и не будет. И человек так же учится и так же ошибается.

Вот восстанет Ктулху из глубин - быть может и научит людей, как делать системы с нечеловеческим мышлением. А без этого люди ничего, кроме своих подобий, создать не способны и не будут способны.

Date: 2016-06-01 01:09 pm (UTC)
From: [identity profile] vit-r.livejournal.com
Та же самая лихорадка была с компьютерами пятого поколения. Одна только Япония на этом поле золотые горы закопала. Потом выяснят, что не всё так радужно, как описывали в прогнозах те, кто скачет по верхам.

Date: 2016-06-01 01:32 pm (UTC)
From: (Anonymous)
% грамотность как раз падает

Метаюмор ок.

Date: 2016-06-04 10:24 pm (UTC)
From: (Anonymous)
Про ошибочные запросы: если в Яндексе забить "аппарат Эпштейна", то в картинках, вместо устройства для исследования магнитных свойств сталей, будет множество больных глоток, непонятно как связанных с.

Date: 2016-06-05 10:23 am (UTC)
From: [identity profile] vit-r.livejournal.com
Как связанных - понятно. Через Вирус Эпштейна - Барр, а "аппарат" встречается где-то в тексте. Знать контекст робот не обязан. (Гугл вообще слова вычёркивает, которые считает лишними)

Date: 2016-06-07 01:08 am (UTC)
ext_646638: (Default)
From: [identity profile] rdia.livejournal.com
Да, бесит, что Гугель и Яндекс не могут найти страницу по точной фразе? Пусть даже без пунктуации.

Т.е. если вы ищете редкую цЫтату, то вам показывают фигу.

Date: 2016-06-07 04:47 am (UTC)
From: [identity profile] vit-r.livejournal.com
Честным поисковиком была Альтависта. Она закрылась, потому что это коммерчески не выгодно.

Сейчас bing от M$ ищет многие вещи лучше Гугла.

Date: 2016-06-09 09:31 am (UTC)
From: (Anonymous)
Спасибо, не додумался связи поискать)

Profile

vit_r: default (Default)
vit_r

February 2026

S M T W T F S
12 34 567
8 91011121314
15161718192021
22232425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 10th, 2026 06:10 am
Powered by Dreamwidth Studios