(no subject)
Опять затерло с работой. Сроки на подходе, а движения ноль. Нарастает внутренняя паника. Что делать, что делать?
Кто-нибудь имел опыт с парсингом натурального, но в какой-то мере структурированного языка на предмет выявления содержания беседы? Как это делают нормальные, ученые люди?
Кто-нибудь имел опыт с парсингом натурального, но в какой-то мере структурированного языка на предмет выявления содержания беседы? Как это делают нормальные, ученые люди?

no subject
ЗЫ самое простое без погружения в смысл на самом дее: выделить все словоформы - отстемить их(желательно со словарем) - убрать не смысловые слова-связки. а дальше сидеть и думать - какие основы к какой области относятся и не относятси ли случаем к какаой-нибудь одной теме. )
no subject
no subject
Построил машину Тюринга, которая лазает по тексту и проверяет его... но конечного желаемого результата что-то еще в бинокль не видно, а сроку поставлено недели две.
no subject
захожу к Вам по рекомендации Джима о "наших людях в Израиле" - и первым делом вижу пост по теме моего несостоявшегося дисера)
no subject
no subject
no subject
Есть международные валютные торги. Они проводятся по телефону и через интернет. Брокеры переговариваются между собой -- или переписываются, и так заключают сделки. Моя задача: написать мордуль, который, прочитывая такую переписку, выдает параметры сделок, в ней заключенных, буде таковые имеются.
Сделки выглядят примерно так:
# EUR 0.5 EUR
0102
** CHEZI> 01
# TO CONFIRM AT 1.2101 I SELL 500000 EUR
# VAL 18JUL2005
# STANDARD INSTRUCTIONS
# ** THANKS VM FRDS %%%%%%%%%%
TO CONFIRM 500000 AGREED AT 1.2101 I BUY EUR
VAL 18JUL2005
MY EUR TO %%%%%%
# THANKS AND BYE
#
#INTERRUPT#
#END REMOTE#
или так:
EURXXX
# OPTION DESK> HIHI GA PLS
FX OPTIONS> HI CAN I HOLS STRADDLE AT 1.2130 IN 10 PER PLS
# W SELL 10 EUR AT 1.2130?
I HOLD STRADDLE
# I SEE THAT WHAT DO U XXX?
30 SECS
SELL
# TO CONFIRM YOU SELL 10 EUR AT 1.2130
ALL AGREED TKS BIBBIFN
#
# #END LOCAL#
#
У меня есть корпус из примерно полутора тысяч разговоров, на которых я тренирую свою хреновину.
В принципе в мире существует продукт фирмы Reuters, который разбирает эти разговоры и определяет параметры сделок. Его написал коллектив, возглавляемый доктором наук с 14 годами опыта в NLP и т.п. Сколько времени они его писали, я не знаю. Передо мной поставлена задача сделать продукт, который будет разбирать то, чего не разбирает продукт Рейтерс (иначе, говорят, на фига, можно купить и у Рейтерс), дает не меньше 97% правильных разборов, и закончить разработку надо в конце октября, а потом дебаггинг.
Пишем на перле.
Веревку и мыло не предлагать.
no subject
Что ты хочешь получить в результате?
Фразу типа "X договорился с Y купить Z по A"?
Тогда можно сделать так:
"Выкусывать" адреса дилеров и клиентов (самому сохранять в базу или есть уже). Выкусывать название валют и акций (должен быть справочник).
Оставшийся спам Trim'ить, выкидавая hi, good buy и пр.
А потом заменять синонимичные конструкции (типа buy, do buy,i'll buy и пр).
Еще можно и опечатки пробовать исправлять.
Эту часть я бы попробовал сделать на прологе, там просто подобные правила пишутся.
Но ты уже сделал, судя по посту выше. :)
Yuri.Kudryavcev@gmail.com
no subject
Сделал так: написал машинку Тюринга, которая бегает туда-сюда по ленте символов, заменяя одни символы на другие по правилам, близким к языку regexpов, но чуть ширше (скажем, сеты поддерживаем); в принципе, машинка язык не ограничивает, как по теории и должно быть. Потом эту ленту разбиваю на "мессаджи": запрос курса, в котором описывается желаемая сделка -- ответ с другой стороны -- соглашение или несоглашение -- в случае соглашения подтверждение сделки (может не быть, может быть с обеих сторон) -- банковские реквизиты, куда слать деньги. Если первых трех мессаджей не обнаружено -- сделка не состоялась, имеем дело с обычной болтовней.
Интересно, как сделали настоящие программисты в Рейтерс?..
no subject
Письма трейдерами пишутся или генерируются спец программой? В первом случае рискуем получить опечатки и пр, что не будет распознано.
Я просто предлагал использовать пролог для приведения "мессаджей" в унифицированный вид, используя лог вывод конструкций.
В рейтерс могли тренировать нейросеть на болтовню.
no subject
Тут как: если человек может понять, о чем речь, то он и машину может научить. В прынцыпе. С какой-то вероятностью и с каким-то процентом ошибки, желательно небольшим.
С прологом у меня отношения очень тяжелые -- слишком поздно о нем узнал, голова его не приемлет. Ни одной лабы не смог самостоятельно написать: брал чужую работающую, менял хоть что-то по своему разумению -- переставало работать.
Рейтерс нейросетями не пользуется. Они не преминули бы об этом написать. http://www.rcp.co.uk/finance/pdf/FXandMM_May04.pdf -- вон у них чего.
no subject
no subject
Правда, в НЛП я не силен... сорри.
no subject
Делаю не по науке, а как-то по-русски так: половину на авось, половину методом тыка. С одной стороны, если уж заработает, то будет работать железно, никаких там fuzzy logic, это мы не проходили, это нам не задавали. С другой стороны, каждый день еду на работу с мыслью: а вдруг вот именно сегодня упрусь в стену лбом, и выяснится, что детерминизма больше нет, а нужно вот именно то, чего я не умею, не знаю и не понимаю.
no subject
Ты же наверняка не хочешь вернуться к тупой работе типа Синтека (каких в нашей области 90 %) !
no subject