Итак, задача простая: берём строчку «Gasthaus zur Bundesländern» и пытаемся первести на русский.
Советую взять яндекс как более умный. И очень рекомендую печатать руками, следя за превращениями в соседнем окне.
Слева стоит «Gasthaus» справа вполне сносный переовд.
Теперь по буквам вводим « zur» и смотрим что происходит с первым словом в переводе.
Ничего удивительного. Хоть, в Яндекс и введена грамматика, но сочетание «Gasthaus zur» относится к невозможным в стандартных правилах хохдойча и алгоритм сваливается на другую ветку.
Теперь добавим «Bundesländern». Опять же по буквам, потому что слово составное и алгоритм на ходу меняет предположение.
(«ä» можно записать как «ae»)
Но это ещё не всё.
Вернёмся к первоначальному состоянию и напечатаем
«Gasthaus "», начав название гостиницы с кавычек.
Алгоритм опять соскакивает на другую ветку, давая иной результат.
Наиболее близкий переод получается при введении строчки «Gasthaus "Zur Bundesländern"», превращающейся в «Гостевой Дом "На Землях"».
Прошу заметить, кроме общего хохдойча существуют множество диалектов, немного отличающихся по правописанию и грамматике. И это, как и выведенные на ходу авторами англицизмы, часто попадает во вполне литературные тексты.
Если перевести эмоции в словестную форму, статистические алгоритмы будут валится на граничных случаях. Причём валится так, что вытаскивать их оттуда смогут только специально обученные маги.
Маги потому, что правила, созданные в результате глубокого нейронального обучения, получаются чёрным ящиком с неизвестными побочными эффектами.
Так что, будут безводительные грузовики мчать из конца в конец Штатов днём и ночью, не останавливаясь, не уставая, ни сворачивая с пути. А в каждом, в удобном купе без руля и педалей, разместят оператора перезапуска, который при аварийной остановке на трассе будет открывать особую панель и жать на три заветные кнопки, давая одновременно через голосовое управления пару совершенно не имеющих смысла фраз, позволяющих умному автоматическому алгоритму выйти из ступора.
Если современный немецкий поезд ICE встал посреди дороги и машинист объявил о небольших технических проблемах, не удивляйтесь. Там, в самой голове поезда, человек устал бороться с софтверными ошибками простыми способами, нажал на кнопку «Reset» и ждёт, когда система поднимится, придёт в рабочее состояние и, может быть, забудет о прозошедшем сбое.
И это простейший алгоритм, проверенный квалифицированными специалистами, прекрасно видящими его внутренности. С тёмными результатами статистического обучения на неизвестных примерах поможет только настоящая магия.
Можно, конечно, начать рассказывать про то, что, когда компьютеры придут к власти, всех заставят писать правильно и переходить дорого строго на зелёный. Ни в первый раз человечество подстраивается под дурацкие интерфейсы.
Однако, грамотность как раз падает и алгоритмы семантического анализа будут всё чаще натыкаться на слова, исправленные автокорректорами с неправильных на не подходящие по смыслу.
Нас ждёт интересное будущее.
no subject
Date: 2016-06-01 10:56 am (UTC)Праздный вопрос - что мешает использовать методы, дающие вполне легко интерпретируемые модели? Например
https://en.wikipedia.org/wiki/Support_vector_machine
https://en.wikipedia.org/wiki/K-means_clustering
https://en.wikipedia.org/wiki/Decision_tree_learning
no subject
Date: 2016-06-01 11:02 am (UTC)Статистические методы создают непрозрачные системы.
no subject
Date: 2016-06-01 11:17 am (UTC)В том, что такие модели допускают вполне понятную интерпретацию и прозрачно переводятся на человеческий язык. Те же decision tree learning порождают просто дерево решений, которое даже переводить особо не надо.
От нейронных сетей в machine learning потому и стараются держаться подальше, что результат очень тяжело интерпретировать. А в вышеназванных примерах все достаточно наглядно, если хоть немного разобраться.
no subject
Date: 2016-06-01 12:21 pm (UTC)no subject
Date: 2016-06-01 02:58 pm (UTC)Есть такая область, как поиск новых лекарств. Один из подходов, как это можно сделать:
1) берется большая выборка молекул, обладающих нужной лекарственной активностью.
2) Их поверхность триангулируется. Дальше на поверхности выбираются ключевые точки ('выпуклости' и 'впуклости') Для каждой вычисляются некоторые характеристики (электростатический потенциал)
3) Дальше уровни потенциала дискретизируются.
4) Генерируется список двоек, троек, четверок точек. каждая характеризуется (дискретизированным) зарядом точек, углами и расстояниями. Все это безобразие тоже дискретизируется.
5) строится табличка с колонками: молекула - активность - имеющиеся двойки-тройки-четверки. Количество двоек-троек-четверок - это признак.
6) Собственно, machine learning . Наводится корреляция между активностью и двойками-тройками-четверками.
7) любую входящую молекулу можно теперь классифицировать, посмотрев, куда её положит корреляция. Можно это делать нейронными сетями, но так никто не делает. Обычно используют что-то из того, на что я дал ссылки, или близкое идеологически. Причем предпочтение отдается той модели, которая взяла минимум признаков.
Интерпретация такой модели проста - приложив двойки-тройки-четверки и корреляцию можно увидеть, какие участки молекулы отвечают за активность, и какие у неё в этом месте свойства. В некоторых случаях будет еще и видно, каких участков быть не должно.
Понятное дело, что черный ящик нейросети с учетом всех входов интерпретировать не получится. Поэтому нейросети и стараются не использовать.
no subject
Date: 2016-06-01 04:04 pm (UTC)no subject
Date: 2016-06-01 04:27 pm (UTC)no subject
Date: 2016-06-01 04:34 pm (UTC)no subject
Date: 2016-06-01 05:50 pm (UTC)Если вы про машинный перевод, то там удовлетворительного результата не будет очень долго, скорее всего в течении всей нашей жизни. И дело не в специфике машинного обучения, а в отсутствии внятной семантической модели естественного языка. По этому поводу я не питаю иллюзий. Точно так же я не питаю иллюзий по поводу перспектив автоматических автомобилей - машинное зрение все еще в пеленках.
Но, мнэ, зацикленность общественности на нейронных сетях - она от необразованности. В реальности их стараются не использовать - именно по причине трудностей с интерпретацией модели и оценки её качества. Люди не дураки, об этом уже подумали.
no subject
Date: 2016-06-01 06:55 pm (UTC)no subject
Date: 2016-06-01 07:01 pm (UTC)no subject
Date: 2016-06-01 07:06 pm (UTC)Язык, кстати, непрерывно меняется.
no subject
Date: 2016-06-01 07:10 pm (UTC)no subject
Date: 2016-06-01 12:55 pm (UTC)Ну надо же, ну совсем как человеки. Например в армии можно частенько наблюдать, как новобранца из внезапной тупизны целительными пенделями вытаскивает специально обученный маг ака унтер-офицер. Да и удивительными происшествиями с водителями-человеками на граничных и не очень случаях битком набит тот же ютуб, слава авторегистраторам.
no subject
Date: 2016-06-02 12:28 am (UTC)no subject
Date: 2016-06-01 01:00 pm (UTC)Других способов нет и не будет. И человек так же учится и так же ошибается.
Вот восстанет Ктулху из глубин - быть может и научит людей, как делать системы с нечеловеческим мышлением. А без этого люди ничего, кроме своих подобий, создать не способны и не будут способны.
no subject
Date: 2016-06-01 01:09 pm (UTC)no subject
Date: 2016-06-01 01:32 pm (UTC)Метаюмор ок.
no subject
Date: 2016-06-04 10:24 pm (UTC)no subject
Date: 2016-06-05 10:23 am (UTC)no subject
Date: 2016-06-07 01:08 am (UTC)Т.е. если вы ищете редкую цЫтату, то вам показывают фигу.
no subject
Date: 2016-06-07 04:47 am (UTC)Сейчас bing от M$ ищет многие вещи лучше Гугла.
no subject
Date: 2016-06-09 09:31 am (UTC)