ibash.org.ru - Новый цитатник Рунета

Цитаты: По дате По рейтингу Случайно Добавить Поиск RSS

Форум: Проэкт "Моника" 1 2 3 > [RSS]

Форум: Вход Регистрация Участники Поиск RSS

Malefic 26.01.2010 - 12:35	Амбиционизм в чистом виде
Malefic #1 - 26.01.2010 - 12:43	Итак, есть желание сделать управляемую голосом систему, которая может выполнять задачи типа "Включить свет", "Выключить свет" в комнате и так далее. Интересно, есть ли открытые системы распознавания голоса, хоть какие-то примитивные, которые могут отличить слово "хер" от "свет", на основе которых можно что-то сделать. Идея такова: каждая команда - набор управляющих слов. Первое - инициализируцющее, второе - обьект, третье - действие. Пример "Моника. Свет. Ярче" Идеи? Может я придумываю еще один бесплатный велик? ЗЫ Да, я понимаю, что нужно будет делать на выходе контроллер, у меня есть люди, которые могут этим заняться (=
gdulhr #2 - 26.01.2010 - 12:55	Такое чудо продавалось в комплекте с AWE64.
дятел #3 - 26.01.2010 - 13:13	У меня явно не здоровые ассоциации с именем "Моника".
RoadRunnеr #4 - 26.01.2010 - 13:18	проЕкт. граммар наци негодуе! :) А Моника... "Мало ли в Бразилии донов Педро?"
3123 #5 - 26.01.2010 - 13:20	Специальные розетки и софт для этого уже есть. Розетки денег стоят, конечно. )
Malefic #6 - 26.01.2010 - 13:29	Тоесть ничего нормального таки нету. Хорошо. А софт есть с функциями распознавания?
Malefic #7 - 26.01.2010 - 13:30	Блин, чо вы придолбались, я первое встречное имя взял) Вчера друзей смотрел (=
RoadRunnеr #8 - 26.01.2010 - 13:35	Друзей Б.Клинтона? :))
RoadRunnеr #9 - 26.01.2010 - 13:35	А если серьезно, то, возможно, нихонцы это делают. У них же "умные" дома, напичканные электроникой и робототехникой...
RoadRunnеr #10 - 26.01.2010 - 13:38	Макс, ты хочешь свою систему написать?! Это, по-моему, задачка для НИИ, а они вряд ли в открытый доступ что-либо пригодное выложат. А библиотеки для распознавания есть даже у мелких - в винду встроены. Даже работает; правда, криво ^_^'
Malefic #11 - 26.01.2010 - 14:03	#10 Ты чо?! Какой НИИ? )))) Система только постоянно _слушает_. Если слышит управляющее слово, начинает ждать команды. Команда состоит из 2-3 слов. Ничего сложного ) Если есть распознавалка речи, дальше всё достаточно просто описать алгоритмами (реализовать малеха сложней, но реально)
Ским #12 - 26.01.2010 - 14:04	Ололо, малефик реализует часть моего проекта :).
Malefic #13 - 26.01.2010 - 14:05	> А библиотеки для распознавания есть даже у мелких - в винду встроены. Даже работает; правда, криво ^_^ Да, знаю, но я хо открытую весч и на юниксах работающую. Дабы этой цели можно было отдать какую-то еле живую машину без монитора (=
Ским #14 - 26.01.2010 - 14:08	Мэл, регистрируйся на shl тчк antixpuct тчк ru. Будешь помогать :).
Malefic #15 - 26.01.2010 - 15:07	Ским, посмотрел. Слишком мудрено. >Предлагаю подумать над тем, как осуществлять беспроводную связь между "центром управления" и остальными частями "дома". // WiFi VS X10 VS {...}. --Ским 23:39, 15 января 2010 Этокапец, очень дорого получится, хотя беспроводно это кул.
RoadRunnеr #16 - 26.01.2010 - 15:15	#11 Макс, система слушает - это плевое дело. Распознавание сигнала, вычленение из него _голоса_, распознавание среди речи _управляющего слова_... Да, сейчас делают по-другому - просто сравнивают снимок твоего голоса с тем, что поступает на вход "звукоснимателя". Если снимок совпадает (с учетом погрешности, есессьна), то считается, что прозвучала "управляющая команда" и надо декодировать дальше. Но я-то понял так, что ты... А, видимо, я ошибочно понял...
RoadRunnеr #17 - 26.01.2010 - 15:17	Кстати, виндовая так и работает. И именно поэтому она работает криво. Не говоря уже о том, что насморок или хриплый спросонья голос тебе испортят все "управление".
RoadRunnеr #18 - 26.01.2010 - 15:18	*виндовая распознавалка
Malefic #19 - 26.01.2010 - 15:19	Я собсно и спросил, есть ли открытые проекты с таким функционалом )
Ским #20 - 26.01.2010 - 17:36	>> Этокапец, очень дорого получится, хотя беспроводно это кул. Уже решили, что тот же модбас, только я уже забыл с каким расширением из всех этих RS'ов :). В общем, ничего сверхъестественного поверх обычного радио-сигнала :)
Хирург #21 - 26.01.2010 - 22:38	Ским, модбас это протокол, кладется поверх веревки RS485 или RS232, в зависимости от того с каким девайсом вязаться. Затем появился модбас+ это модифицированный модбас, поверх скорректированной веревки. Как-то так)
Malefic #22 - 27.01.2010 - 12:32	Вобщем нету такого. Абидно. :(
Циник #23 - 27.01.2010 - 14:27	@Malefic, чего обидно-то? Напишешь - сделаешь полезное дело, а не изобретёшь очередной велосипед.
Malefic #24 - 27.01.2010 - 15:12	Не напишу, знаний не хватит...
Циник #25 - 27.01.2010 - 15:38	@Malefic, как завещал дедушка Ленин, учиться, учиться и ещё раз учиться ) Простейшую версию, типа того что в Винде написать не так уж сложно. С этого имхо и надо начинать. Потом уже надо будет учиться убирать шумы(выделять голос человека) и переходить к более сложным способам распознования команд.
Asterozoa #26 - 27.01.2010 - 19:33	Наверное в распознавании самая проблема и будет, может добавить другие способы контроля, например видеорегистрацию, типа датчики движения включат камеры, которые с нескольких ракурсов будут фиксировать открытие рта, и при определенной четкости можно добиться результатов, ведь можно же уже номера машин распознавать на ходу без проблем , тогда техническая часть будет сложнее , но задача решается в разы проще, если например связать звук и изображение и сверять
Циник #27 - 27.01.2010 - 20:33	@Asterozoa, вы серьёзно считаете, что распознавание видео-образов проще чем аудио-образов? А применительно к задаче, как видеокамеры помогут в условиях темноты при команде "Моника. Свет. Включить"?
Asterozoa #28 - 27.01.2010 - 21:17	Циник, что по вашему проще? Распознавание текста из графики или из аудио? А если заставить работать в связке? А насчет темноты- достаточно много камер работают и в ик-диапазоне, преобразуя его в видимый цвет на видеосигнале, достаточно просто разместить ик-батареи по периметру. О...да...детка
Циник #29 - 27.01.2010 - 21:39	@Asterozoa, ))) есть одна маленькая мелочь... распознавать придётся не текст, который состоит из ограниченного числа чётко определённых символов, а форму и движение рта, который может быть каким угодно. А эти задачи различаются примерно так же как распознавание чёрного текста Arial 18px на белом фоне от распознавания этого же текста, написанного произвольным набором шрифтов, размеров, наклонов, цветов на произвольном фоне с шумами(ака "взлом капчи"). Оцените сложность. Кстати, подход "я не могу решить одну проблему, поэтому я создам себе ещё две и буду решать их все вместе" очень редко приводит к успеху. Точнее, мне даже неизвестны случаи, когда бы он приводил к успеху.
детка #30 - 27.01.2010 - 21:40	>достаточно просто разместить ик-батареи по периметру. С этого места поподробнее..
Asterozoa #31 - 27.01.2010 - 21:49	Детка, я имею в виду не решать две проблемы, а совместить оба принципа, тогда например каждый звук будет сравниваться с изображением лица хозяина и базой шаблонов, и если не совпадет, то будет игнорироваться, это уже намного проще, чем отсекать шумы в изображении-звуке по отдельности... Ик-батареи- куча ик-диодов направленных в одну сторону, попробуй взять телефон с камерой, не слишком крутой, направь в нее пульт от телевизора и нажми кнопку на пульте
Asterozoa #32 - 27.01.2010 - 21:51	Если она видит источник излучения, то увидит и отраженное излучение, просто мощность излучателя недостаточная, надо увеличивать... Короче пнв так и устроены
Циник #33 - 27.01.2010 - 22:01	@Asterozoa, это пять!!! сразу видно человека, который занимался задачами распознавания образов вообще и человеческого лица в частности. Продолжайте в том же духе. У меня реально поднимается настроение))
Asterozoa #34 - 27.01.2010 - 22:21	Неконструктивно, думаем все вместе. В любом случае для умного дома нужна система видеонаблюдения, почему бы ее не приспособить, камеры взять с достаточным качеством съемки и просмотром ик-диапазона, пускай для начала ввод команд будет осуществляться с кнопок (и одновременно голосом) и сопровождаться записью изображений с камер и звуков с микрофонов, либо пускай камеры будут фиксировать только изменения в изображении- то есть будет фиксироваться только хозяин на статичном фоне, создать мертвые зоны- телеэкраны, дисплеи, можно добавить жесты, любые заметные движения-хотя это некритично при достаточном качестве съемки, а шумодавы будут убирать лишние шумы
Asterozoa #35 - 27.01.2010 - 22:21	И при совпадении- 'звук-изображение' будет выполняться команда
Циник #36 - 27.01.2010 - 22:33	@Asterozoa, завязывайте с "полётами на Марс" ;) Я серьёзно, без всякой злобы и подколок. Ваш план, конечно, хорошо, но нереален. Только программная реализация займёт больше года при полной занятости 2-х квалифицированных программистов. @Malefic, Если интересно, завтра могу набросать план развития Моники, но только с точки зрения ПО, в железе и низкоуровневом программировании я не силён.
Asterozoa #37 - 27.01.2010 - 22:42	Полеты на марс? Год программирования- А как вы хотели? Такими вещами и дольше занимаются и большие команды разрабов. На Систему распознавания голоса и то полгода уйти может, а концепцию умного дома с нуля разработать, создать и внедрить:)
Циник #38 - 27.01.2010 - 23:03	@Asterozoa, я бы хотел получить результат, а не очередной мёртворождённый проект, из которого все сбегут не сделав и 10% от задуманного. А для этого совершенно необходимо ставить реальные задачи.
Asterozoa #39 - 27.01.2010 - 23:15	Другой вопрос. Здесь не могу не согласиться, просто предложил способ, но все же
Asterozoa #40 - 27.01.2010 - 23:16	Чем не путь развития проекта? Можно добиться коллосального увеличения точности, не прибегая к сверхсложным способам
Циник #41 - 27.01.2010 - 23:36	@Asterozoa, ну почему же не путь? Путь, только тупиковый. Вы просто плохо себе представляете, что это такое детектить и анализировать лицо человека даже на статической фотке, не говоря уже о динамике. Это как раз и есть сверхсложный способ. И это даже не касаясь вопросов железа, которых в вашем пути очень много.
Asterozoa #42 - 27.01.2010 - 23:40	В плане технической реализации сферически не сложно если идти от малого- допустим камера снимает в фас перед монитором- изначально делается кадр в файл без оператора. Потом делаем ввод шаблонов- пускай оператор запишет все положения лица при выговаривании гласных букв- программа каждый раз будет сравнивать полученное изображение со статичным фоном. Те области, которые не сходятся-оператор, пишем в файлы с абсолютной позицией, то есть положение относительно фона неважно. Далее тестируем ввод команд- опять же области не схожие с фоном - оператор- сравниваем с файлами из второго шага. Далее уже можно снизить точность , вставить фильтры типа медианы. В плане аппаратных мощностей- пускай этим сначала хоть GDI занимается, потом можно другие интерфейсы приспособить
Asterozoa #43 - 27.01.2010 - 23:43	Существуют же регистраторы номеров машин- чем не обработка в динамике? Или думаете эта система сверхумная и сверхсложная, или она увидит разницу между машинами, на которые эти номера прикручены ?
Asterozoa #44 - 27.01.2010 - 23:47	Или же вы сразу хотите, чтобы система прямо на видео прямо на ходу находила некий движущийся объект, понимала, что это человек, что вот его лицо, что это лицо оператора и ждала команд?
Asterozoa #45 - 27.01.2010 - 23:53	Тогда это точно задачка для НИИ
Циник #46 - 28.01.2010 - 00:04	@Asterozoa, план с оператором - бессмысленная жесть. Я так и не понял зачем это надо и как это потом можно будет использовать на практике. Насчёт машин. Там всё проще, т.к. номер задетектить и распарсить гораздо проще чем лицо. Согласитесь, гораздо легче отличить 1 от 7, чем позицию губ при произнесении А от позиции губ при произнесение О.
Asterozoa #47 - 28.01.2010 - 00:08	Согласен, а от о отличить сложно, можно сделать абстрактный ао, так же и на аудио будешь писать исключения, чтобы не появлялись слова типа жыр или какос?.. Почему план с оператором бессмысленен? Простое условие- изменение изображения, хоть рукой маши, если не совпадет-значит не совпало
Asterozoa #48 - 28.01.2010 - 00:18	И вообще, с чего ты взял, что я про распознавание текста с фото? Я имел в виду синхронизацию с вводом аудио, с которого уже будет распознаваться текст, при условии совпадения
Asterozoa #49 - 28.01.2010 - 00:20	То есть если кто нибудь рядом орет - и камера не видит что у тебя рот открыт, значит это не команда, и не надо мучиться, а как увидит что ты говоришь-начнет слушать, и при некоторой ебле сравнивать гласные звуки с фото и аудио
Asterozoa #50 - 28.01.2010 - 00:21	А если делать систему распознавания голоса, то хоть как нужно говорить громко и четко, попробуй, и заметишь, что губы складываются по разному, когда говоришь а и о

К списку вопросов

Страницы: 1 2 3 >

Быстрый ответ

«ibash.org.ru — Новый цитатник Рунета»

Почта вебмастера: imail@ibash.org.ru

Имя:	Пароль: Запомнить меня?
Текст сообщения: