ibash.org.ru - Новый цитатник Рунета

Форум: Проэкт "Моника" 1 2 3 > [RSS]

Форум: Вход Регистрация Участники Поиск RSS

Malefic
26.01.2010 - 12:35

Амбиционизм в чистом виде

Malefic
#1 - 26.01.2010 - 12:43

Итак, есть желание сделать управляемую голосом систему, которая может выполнять задачи типа "Включить свет", "Выключить свет" в комнате и так далее.
Интересно, есть ли открытые системы распознавания голоса, хоть какие-то примитивные, которые могут отличить слово "хер" от "свет", на основе которых можно что-то сделать.
Идея такова: каждая команда - набор управляющих слов. Первое - инициализируцющее, второе - обьект, третье - действие. Пример "Моника. Свет. Ярче"

Идеи?

Может я придумываю еще один бесплатный велик?

ЗЫ Да, я понимаю, что нужно будет делать на выходе контроллер, у меня есть люди, которые могут этим заняться (=

gdulhr
#2 - 26.01.2010 - 12:55

Такое чудо продавалось в комплекте с AWE64.

дятел
#3 - 26.01.2010 - 13:13

У меня явно не здоровые ассоциации с именем "Моника".

RoadRunnеr
#4 - 26.01.2010 - 13:18

проЕкт. граммар наци негодуе! :)

А Моника... "Мало ли в Бразилии донов Педро?"

3123
#5 - 26.01.2010 - 13:20

Специальные розетки и софт для этого уже есть. Розетки денег стоят, конечно. )

Malefic
#6 - 26.01.2010 - 13:29

Тоесть ничего нормального таки нету. Хорошо. А софт есть с функциями распознавания?

Malefic
#7 - 26.01.2010 - 13:30

Блин, чо вы придолбались, я первое встречное имя взял) Вчера друзей смотрел (=

RoadRunnеr
#8 - 26.01.2010 - 13:35

Друзей Б.Клинтона? :))

RoadRunnеr
#9 - 26.01.2010 - 13:35

А если серьезно, то, возможно, нихонцы это делают. У них же "умные" дома, напичканные электроникой и робототехникой...

RoadRunnеr
#10 - 26.01.2010 - 13:38

Макс, ты хочешь свою систему написать?! Это, по-моему, задачка для НИИ, а они вряд ли в открытый доступ что-либо пригодное выложат. А библиотеки для распознавания есть даже у мелких - в винду встроены. Даже работает; правда, криво ^_^'

Malefic
#11 - 26.01.2010 - 14:03

#10
Ты чо?! Какой НИИ? ))))
Система только постоянно _слушает_. Если слышит управляющее слово, начинает ждать команды. Команда состоит из 2-3 слов. Ничего сложного )
Если есть распознавалка речи, дальше всё достаточно просто описать алгоритмами (реализовать малеха сложней, но реально)

Ским
#12 - 26.01.2010 - 14:04

Ололо, малефик реализует часть моего проекта :).

Malefic
#13 - 26.01.2010 - 14:05

> А библиотеки для распознавания есть даже у мелких - в винду встроены. Даже работает; правда, криво ^_^
Да, знаю, но я хо открытую весч и на юниксах работающую. Дабы этой цели можно было отдать какую-то еле живую машину без монитора (=

Ским
#14 - 26.01.2010 - 14:08

Мэл, регистрируйся на shl тчк antixpuct тчк ru. Будешь помогать :).

Malefic
#15 - 26.01.2010 - 15:07

Ским, посмотрел. Слишком мудрено.
>Предлагаю подумать над тем, как осуществлять беспроводную связь между "центром управления" и остальными частями "дома". // WiFi VS X10 VS {...}. --Ским 23:39, 15 января 2010
Этокапец, очень дорого получится, хотя беспроводно это кул.

RoadRunnеr
#16 - 26.01.2010 - 15:15

#11
Макс, система слушает - это плевое дело. Распознавание сигнала, вычленение из него _голоса_, распознавание среди речи _управляющего слова_... Да, сейчас делают по-другому - просто сравнивают снимок твоего голоса с тем, что поступает на вход "звукоснимателя". Если снимок совпадает (с учетом погрешности, есессьна), то считается, что прозвучала "управляющая команда" и надо декодировать дальше.

Но я-то понял так, что ты... А, видимо, я ошибочно понял...

RoadRunnеr
#17 - 26.01.2010 - 15:17

Кстати, виндовая так и работает. И именно поэтому она работает криво. Не говоря уже о том, что насморок или хриплый спросонья голос тебе испортят все "управление".

RoadRunnеr
#18 - 26.01.2010 - 15:18

*виндовая распознавалка

Malefic
#19 - 26.01.2010 - 15:19

Я собсно и спросил, есть ли открытые проекты с таким функционалом )

Ским
#20 - 26.01.2010 - 17:36

>> Этокапец, очень дорого получится, хотя беспроводно это кул.
Уже решили, что тот же модбас, только я уже забыл с каким расширением из всех этих RS'ов :). В общем, ничего сверхъестественного поверх обычного радио-сигнала :)

Хирург
#21 - 26.01.2010 - 22:38

Ским, модбас это протокол, кладется поверх веревки RS485 или RS232, в зависимости от того с каким девайсом вязаться. Затем появился модбас+ это модифицированный модбас, поверх скорректированной веревки. Как-то так)

Malefic
#22 - 27.01.2010 - 12:32

Вобщем нету такого. Абидно. :(

Циник
#23 - 27.01.2010 - 14:27

@Malefic,
чего обидно-то? Напишешь - сделаешь полезное дело, а не изобретёшь очередной велосипед.

Malefic
#24 - 27.01.2010 - 15:12

Не напишу, знаний не хватит...

Циник
#25 - 27.01.2010 - 15:38

@Malefic,
как завещал дедушка Ленин, учиться, учиться и ещё раз учиться )

Простейшую версию, типа того что в Винде написать не так уж сложно. С этого имхо и надо начинать. Потом уже надо будет учиться убирать шумы(выделять голос человека) и переходить к более сложным способам распознования команд.

Asterozoa
#26 - 27.01.2010 - 19:33

Наверное в распознавании самая проблема и будет, может добавить другие способы контроля, например видеорегистрацию, типа датчики движения включат камеры, которые с нескольких ракурсов будут фиксировать открытие рта, и при определенной четкости можно добиться результатов, ведь можно же уже номера машин распознавать на ходу без проблем , тогда техническая часть будет сложнее , но задача решается в разы проще, если например связать звук и изображение и сверять

Циник
#27 - 27.01.2010 - 20:33

@Asterozoa,
вы серьёзно считаете, что распознавание видео-образов проще чем аудио-образов?
А применительно к задаче, как видеокамеры помогут в условиях темноты при команде "Моника. Свет. Включить"?

Asterozoa
#28 - 27.01.2010 - 21:17

Циник, что по вашему проще? Распознавание текста из графики или из аудио? А если заставить работать в связке? А насчет темноты- достаточно много камер работают и в ик-диапазоне, преобразуя его в видимый цвет на видеосигнале, достаточно просто разместить ик-батареи по периметру.
О...да...детка

Циник
#29 - 27.01.2010 - 21:39

@Asterozoa,
)))
есть одна маленькая мелочь... распознавать придётся не текст, который состоит из ограниченного числа чётко определённых символов, а форму и движение рта, который может быть каким угодно. А эти задачи различаются примерно так же как распознавание чёрного текста Arial 18px на белом фоне от распознавания этого же текста, написанного произвольным набором шрифтов, размеров, наклонов, цветов на произвольном фоне с шумами(ака "взлом капчи"). Оцените сложность.
Кстати, подход "я не могу решить одну проблему, поэтому я создам себе ещё две и буду решать их все вместе" очень редко приводит к успеху. Точнее, мне даже неизвестны случаи, когда бы он приводил к успеху.

детка
#30 - 27.01.2010 - 21:40

>достаточно просто разместить ик-батареи по периметру.
С этого места поподробнее..

Asterozoa
#31 - 27.01.2010 - 21:49

Детка, я имею в виду не решать две проблемы, а совместить оба принципа, тогда например каждый звук будет сравниваться с изображением лица хозяина и базой шаблонов, и если не совпадет, то будет игнорироваться, это уже намного проще, чем отсекать шумы в изображении-звуке по отдельности... Ик-батареи- куча ик-диодов направленных в одну сторону, попробуй взять телефон с камерой, не слишком крутой, направь в нее пульт от телевизора и нажми кнопку на пульте

Asterozoa
#32 - 27.01.2010 - 21:51

Если она видит источник излучения, то увидит и отраженное излучение, просто мощность излучателя недостаточная, надо увеличивать... Короче пнв так и устроены

Циник
#33 - 27.01.2010 - 22:01

@Asterozoa,
это пять!!! сразу видно человека, который занимался задачами распознавания образов вообще и человеческого лица в частности.
Продолжайте в том же духе. У меня реально поднимается настроение))

Asterozoa
#34 - 27.01.2010 - 22:21

Неконструктивно, думаем все вместе. В любом случае для умного дома нужна система видеонаблюдения, почему бы ее не приспособить, камеры взять с достаточным качеством съемки и просмотром ик-диапазона, пускай для начала ввод команд будет осуществляться с кнопок (и одновременно голосом) и сопровождаться записью изображений с камер и звуков с микрофонов, либо пускай камеры будут фиксировать только изменения в изображении- то есть будет фиксироваться только хозяин на статичном фоне, создать мертвые зоны- телеэкраны, дисплеи, можно добавить жесты, любые заметные движения-хотя это некритично при достаточном качестве съемки, а шумодавы будут убирать лишние шумы

Asterozoa
#35 - 27.01.2010 - 22:21

И при совпадении- 'звук-изображение' будет выполняться команда

Циник
#36 - 27.01.2010 - 22:33

@Asterozoa,
завязывайте с "полётами на Марс" ;)
Я серьёзно, без всякой злобы и подколок. Ваш план, конечно, хорошо, но нереален. Только программная реализация займёт больше года при полной занятости 2-х квалифицированных программистов.

@Malefic,
Если интересно, завтра могу набросать план развития Моники, но только с точки зрения ПО, в железе и низкоуровневом программировании я не силён.

Asterozoa
#37 - 27.01.2010 - 22:42

Полеты на марс? Год программирования- А как вы хотели? Такими вещами и дольше занимаются и большие команды разрабов. На Систему распознавания голоса и то полгода уйти может, а концепцию умного дома с нуля разработать, создать и внедрить:)

Циник
#38 - 27.01.2010 - 23:03

@Asterozoa,
я бы хотел получить результат, а не очередной мёртворождённый проект, из которого все сбегут не сделав и 10% от задуманного. А для этого совершенно необходимо ставить реальные задачи.

Asterozoa
#39 - 27.01.2010 - 23:15

Другой вопрос. Здесь не могу не согласиться, просто предложил способ, но все же

Asterozoa
#40 - 27.01.2010 - 23:16

Чем не путь развития проекта? Можно добиться коллосального увеличения точности, не прибегая к сверхсложным способам

Циник
#41 - 27.01.2010 - 23:36

@Asterozoa,
ну почему же не путь? Путь, только тупиковый. Вы просто плохо себе представляете, что это такое детектить и анализировать лицо человека даже на статической фотке, не говоря уже о динамике. Это как раз и есть сверхсложный способ. И это даже не касаясь вопросов железа, которых в вашем пути очень много.

Asterozoa
#42 - 27.01.2010 - 23:40

В плане технической реализации сферически не сложно если идти от малого- допустим камера снимает в фас перед монитором- изначально делается кадр в файл без оператора. Потом делаем ввод шаблонов- пускай оператор запишет все положения лица при выговаривании гласных букв- программа каждый раз будет сравнивать полученное изображение со статичным фоном. Те области, которые не сходятся-оператор, пишем в файлы с абсолютной позицией, то есть положение относительно фона неважно. Далее тестируем ввод команд- опять же области не схожие с фоном - оператор- сравниваем с файлами из второго шага. Далее уже можно снизить точность , вставить фильтры типа медианы. В плане аппаратных мощностей- пускай этим сначала хоть GDI занимается, потом можно другие интерфейсы приспособить

Asterozoa
#43 - 27.01.2010 - 23:43

Существуют же регистраторы номеров машин- чем не обработка в динамике? Или думаете эта система сверхумная и сверхсложная, или она увидит разницу между машинами, на которые эти номера прикручены ?

Asterozoa
#44 - 27.01.2010 - 23:47

Или же вы сразу хотите, чтобы система прямо на видео прямо на ходу находила некий движущийся объект, понимала, что это человек, что вот его лицо, что это лицо оператора и ждала команд?

Asterozoa
#45 - 27.01.2010 - 23:53

Тогда это точно задачка для НИИ

Циник
#46 - 28.01.2010 - 00:04

@Asterozoa,
план с оператором - бессмысленная жесть. Я так и не понял зачем это надо и как это потом можно будет использовать на практике.
Насчёт машин. Там всё проще, т.к. номер задетектить и распарсить гораздо проще чем лицо. Согласитесь, гораздо легче отличить 1 от 7, чем позицию губ при произнесении А от позиции губ при произнесение О.

Asterozoa
#47 - 28.01.2010 - 00:08

Согласен, а от о отличить сложно, можно сделать абстрактный ао, так же и на аудио будешь писать исключения, чтобы не появлялись слова типа жыр или какос?.. Почему план с оператором бессмысленен? Простое условие- изменение изображения, хоть рукой маши, если не совпадет-значит не совпало

Asterozoa
#48 - 28.01.2010 - 00:18

И вообще, с чего ты взял, что я про распознавание текста с фото? Я имел в виду синхронизацию с вводом аудио, с которого уже будет распознаваться текст, при условии совпадения

Asterozoa
#49 - 28.01.2010 - 00:20

То есть если кто нибудь рядом орет - и камера не видит что у тебя рот открыт, значит это не команда, и не надо мучиться, а как увидит что ты говоришь-начнет слушать, и при некоторой ебле сравнивать гласные звуки с фото и аудио

Asterozoa
#50 - 28.01.2010 - 00:21

А если делать систему распознавания голоса, то хоть как нужно говорить громко и четко, попробуй, и заметишь, что губы складываются по разному, когда говоришь а и о
К списку вопросовСтраницы: 1 2 3 >

Быстрый ответ
Имя:      Пароль:    
Текст сообщения:

«ibash.org.ru — Новый цитатник Рунета» Почта вебмастера: imail@ibash.org.ru