vit_r | Про красивые слова и небыстрый софт

Сходил на тусовку моделировщкиков. Люди принадлежат к миру, в котором обитают сущности вроде управления сложностью и связанного в сеть мышления (не знаю, какой перевод будет более адекватным, но ссылка так и называется www.VernetztesDenken.de). Ещё рассказали о хитром Papiercomputer. Немецкое изобретение, которое имеет мало общего как с бумагой, так и с компьютерами и представляет из себя просто способ подсчёта весовых коэффициентов в таблице.

Показывали новую версию моделирующего тула. В принципе, хорошая игрушка. Можно нарисовать зависимость причин и следствий, дать весовые коэффициенты, а потом... Вот с потом проблема.

Вместо того, чтоб выдавать сеть в виде, пригодном для скармливания статистическим, аналитическим и графическим программам, хитрый тул пытается проводить анализ самостоятельно. При этом программа дико тормозит, уходит в нирвану и отчаянно греет процессор. Обсчёт сети с десятью узлами даёт время не только на то, чтоб выпить кофе, но и пообедать. Думаю, в немалой степени из-за аналитического модуля и цена за рабочее место от пол тысячи.

А между тем, компьютер греется и генерит дюжину тысяч правил. Займёт это где-то пол дня. А потом итоги надо будет прогнать на семи тысячах примеров. Вот гадаю, сколько будет длиться проверка и хватит ли четырёх гигов памяти. Можно бы, конечно, пооптимизировать, но смысла нет, так как программа должна отработать один раз.

Flat | Top-Level Comments Only

From:

andy-scott.livejournal.com

12k правил и 7k примеров... мощно, однако

боюсь даже интересоваться, что хоть примерно за задача

From:

vit-r.livejournal.com

Грубо говоря, отбор семантических правил для классификации отдельных требований в техзаданиях.

Сформулировал с третьего раза. Проще говоря, поиск в тексте признаков, которые надо будет искать.

From:

andy-scott.livejournal.com

ОФИГЕТЬ. Я над этим уже года четыре размышляю, но поскольку я давно уже не программист, а бюджета на такую работу взять негде (никому не надо) то только облизываюсь :(

Это закрытая коммерческая работа у вас? Или есть какая-то открытая информация по подходу, методике, алгоритмам?

Интересно, аж жжжжуть :)

From:

vit-r.livejournal.com

Я лет десять пытаюсь искать проекты в этой области. Иногда получается.

Открытого ничего нет. Мне было влом на конференцию абстракт подавать, а у других чего-то аналогичного я не видел. Да и задачи слишком специфичные.

Хочется чего-то большого и светлого, а получается какая-то мелкое и мутное. В частности на этот раз статистические подходы не работают, так как у клиента в классификации, сделанной вручную, полный бардак.

From:

andy-scott.livejournal.com

Так или иначе, но это чертовски интересно. Скажите, а сама постановка задачи - закрытая информация? хотя бы в общих чертях, в абстрактной постановке, отвязанной от конкретики?

From:

vit-r.livejournal.com

Для клиента задача - автоматически читать тексты и поставить определённые значения в колонку в таблице DOORS.

Для меня - понять как сделать автоматический анализ, чего полезного можно извлечь из текстов и как это можно сделать

From:

andy-scott.livejournal.com

Автоматически читать тексты = уже интересно. Это же нужно и разбор на триграфы, и словари и спеллчекер. Был гнутый открытый, как же он назывался... забыл я за давностию годов, но наверное за основу пошел бы, не на lex+yacc же писать.

Семантический анализ... а вот как это сейчас делается? Я честно не знаю. Ну как навскидку вариант. После спеллчека и грамматической чистки разбираем предложения на утверждения в стиле Gellish? (как промежуточное представление аналог байткода типа того). А потом по промежуточному представлению - анализ этих утверждений. Вероятно, с проверкой по шаблонам. Или rule management engines современные как-то иначе работают? C DOORS никогда в жизни не сталкивался...

Вообще конечно это такая несколько загадочная постановка. Что стоит взять некий requirements management tool (тот же Rational или например Pragnalysis Reqline (http://pragnalysis.com/index.php?option=com_content&view=article&id=111&Itemid=68), рассматриваемый SRS (а по сути ТЗ это SRS) силами персонала перегнать в тулзу, а потом уже анализировать результат перегонки? Я бы наверное скорее по этому пути пошел.

From:

vit-r.livejournal.com

Читать, в смылсе анализировать полностью, невозможно. Потому как написано на неформализованном языке, плюс часто содержит всякие нестандартные извращения. Плюс в тексте полно ошибк не только грамматических, но и логических.

Впрочем, это никому и не нужно, потому как результат никуда не пристроить.

Задача в том, чтоб найти некие признаки и классифицировать. Плюс связать то, что может или должно быть связано. Ну и найти ошибки. Обычно первое, что происходит после анализа, это отправка текстов обратно на доработку.

From:

andy-scott.livejournal.com

Ну вот же ж, язык не формализован (и при таком подходе он и не мог быть формализован), посему первым шагом я и смотрю в сторону формализации неформального (ну хоть на 80% уже достижение).

Насчет "не пристроить" это спорно в разрезе "в принципе", но при данном раскладе конечно же увы :(

Собственно о задаче "найти и классифицировать" я и говорю. В моем скромном понимании, задача выглядит пошагово
- причесать spellchecking и грамматику
- разобрать и оттранслировать в промежуточный код (условно Gellish но это так, пальцем в небо)
- промежуточный код (доведенный до формализованных утверждений) анализировать
- соотносить полученные формализованные утверждения с business rules - либо выводить из них requirements транслируя в понятный по RFC язык "must/should/may"

вот как-то так

а без доработки конечно же никак, пока аффтары не начнут хоть мало-мальски системно излагать - никакая автоматика не докопается до сути...

From:

vit-r.livejournal.com

Облом всегда на первом пункте: люди, пишущие требования, не способны чётко и формально их описывать. Люди, способные формально задать требования, могут сразу делать это в "промежуточном коде", сразу используя тулы, этот код проверяющие.

From:

andy-scott.livejournal.com

Факт. В этой ситуации лично меня удивляет исключительно тот факт, что за мной таким умным спецом в формулировке и трассировке требований - до сих пор не стоят в очереди работодатели.