Как объединить boost :: spirit :: lex & amp; повышение :: дух :: ци?

У меня есть лексер, и на основе этого лексера я хочу создать грамматику, в которой используются токены, сгенерированные этим лексером. Я попытался адаптировать некоторые примеры, которые я нашел, и теперь у меня есть что-то, что компилируется и работает хотя бы немного, но один из моих тестов, который должен провалиться, не дает. Теперь я хочу знать, почему, и я также хочу знать, что я на самом деле там делаю (я хочу понять — я просто скопировал некоторый код из некоторых примеров, но это не сильно улучшило понимание).

лексер:

#include <boost/spirit/include/lex_lexertl.hpp>

namespace lex = boost::spirit::lex;

enum LexerIDs { ID_IDENTIFIER, ID_WHITESPACE, ID_INTEGER, ID_FLOAT, ID_PUNCTUATOR };

template <typename Lexer>
struct custom_lexer : lex::lexer<Lexer>
{
custom_lexer()
: identifier("[a-zA-Z_][a-zA-Z0-9_]*")
, white_space("[ \\t\\n]+")
, integer_value("[1-9][0-9]*")
, hex_value("0[xX][0-9a-fA-F]+")
, float_value("[0-9]*\\.[0-9]+([eE][+-]?[0-9]+)?")
, float_value2("[0-9]+\\.([eE][+-]?[0-9]+)?")
, punctuator("\\[|\\]|\\(|\\)|\\.|&>|\\*\\*|\\*|\\+|-|~|!|\\/|%|<<|>>|<|>|<=|>=|==|!=|\\^|&|\\||\\^\\^|&&|\\|\\||\\?|:|,")// [ ] ( ) . &> ** * + - ~ ! / % << >> < > <= >= == != ^ & | ^^ && || ? : ,
{
using boost::spirit::lex::_start;
using boost::spirit::lex::_end;

this->self.add
(identifier, ID_IDENTIFIER)
/*(white_space, ID_WHITESPACE)*/
(integer_value, ID_INTEGER)
(hex_value, ID_INTEGER)
(float_value, ID_FLOAT)
(float_value2, ID_FLOAT)
(punctuator, ID_PUNCTUATOR);

this->self("WS") = white_space;
}
lex::token_def<std::string> identifier;
lex::token_def<lex::omit> white_space;
lex::token_def<int> integer_value;
lex::token_def<int> hex_value;
lex::token_def<double> float_value;
lex::token_def<double> float_value2;
lex::token_def<> punctuator;
};

Грамматика:

namespace qi  = boost::spirit::qi;
namespace lex = boost::spirit::lex;

template< typename Iterator, typename Lexer>
struct custom_grammar : qi::grammar<Iterator, qi::in_state_skipper<Lexer>>
{

template< typename TokenDef >
custom_grammar(const TokenDef& tok) : custom_grammar::base_type(ges)
{
ges = qi::token(ID_INTEGER) | qi::token(ID_FLOAT);
BOOST_SPIRIT_DEBUG_NODE(ges);
debug(ges);
}
qi::rule<Iterator, qi::in_state_skipper<Lexer>> ges;
};

И пример:

BOOST_AUTO_TEST_CASE(BasicGrammar)
{
namespace lex = boost::spirit::lex;
namespace qi = boost::spirit::qi;

std::string test("1234 56");

typedef lex::lexertl::token<char const*, lex::omit, boost::mpl::true_> token_type;
typedef lex::lexertl::lexer<token_type> lexer_type;

typedef custom_lexer<lexer_type>::iterator_type iterator_type;

custom_lexer<lexer_type> my_lexer;
custom_grammar<iterator_type, custom_lexer<lexer_type>::lexer_def> my_grammar(my_lexer);

char const* first = test.c_str();
char const* last = &first[test.size()];

lexer_type::iterator_type iter = my_lexer.begin(first, last);
lexer_type::iterator_type end = my_lexer.end();

bool r = qi::phrase_parse(iter,end,my_grammar, qi::in_state( "WS" )[ my_lexer.self ]);

BOOST_CHECK(r);
}

Я предполагаю, что это возвращает истину, потому что пропущены пробелы — потому что auf qi :: in_state («WS»). Это правда? Кроме того, я знаю, как вывести дополнительные токены для пробелов, но тогда я не знаю, что поместить в то место, где сейчас находится qi :: in_stat — без него это не работает.

Любые идеи, что я могу улучшить относительно структуры? Почему отладочный вывод такой смешной?

<ges>
<try>[]</try>
<success></success>
<attributes>[]</attributes>
</ges>

Спасибо за помощь.

С уважением

Тобиас

3

Решение

Ваш парсер не дает сбоя, но нет, он также не «молча» пропускает пробел (он разбирает только один непробельным в любом случае).

Фактически, свойство семейства API-интерфейсов * фразы_парса состоит в том, что он может не соответствовать полному вводу. Фактически, именно поэтому он берет первый итератор по ссылке: после синтаксического анализа итератор укажет, где остановился синтаксический анализ.

Я изменил немного, чтобы вы могли легко получить доступ к исходному итератору, используя lex::tokenize_and_phrase_parse вместо qi::phrase_parse на lexer_tokens:

Iterator first = test.c_str();
Iterator last = &first[test.size()];

bool r = lex::tokenize_and_phrase_parse(first,last,my_lexer,my_grammar,qi::in_state( "WS" )[ my_lexer.self ]);

std::cout << std::boolalpha << r << "\n";
std::cout << "Remaining unparsed: '" << std::string(first,last) << "'\n";

Выход:

Remaining unparsed: '56'

Вот полный рабочий пример (заметьте, я также изменил второй параметр класса грамматики, чтобы он был непосредственно Skipper, что более типично для грамматик Spirit):

#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/lex_lexertl.hpp>

namespace qi  = boost::spirit::qi;
namespace lex = boost::spirit::lex;

enum LexerIDs { ID_IDENTIFIER, ID_WHITESPACE, ID_INTEGER, ID_FLOAT, ID_PUNCTUATOR };

template <typename Lexer>
struct custom_lexer : lex::lexer<Lexer>
{
custom_lexer()
: identifier    ("[a-zA-Z_][a-zA-Z0-9_]*")
, white_space   ("[ \\t\\n]+")
, integer_value ("[1-9][0-9]*")
, hex_value     ("0[xX][0-9a-fA-F]+")
, float_value   ("[0-9]*\\.[0-9]+([eE][+-]?[0-9]+)?")
, float_value2  ("[0-9]+\\.([eE][+-]?[0-9]+)?")
, punctuator    ("\\[|\\]|\\(|\\)|\\.|&>|\\*\\*|\\*|\\+|-|~|!|\\/|%|<<|>>|<|>|<=|>=|==|!=|\\^|&|\\||\\^\\^|&&|\\|\\||\\?|:|,")// [ ] ( ) . &> ** * + - ~ ! / % << >> < > <= >= == != ^ & | ^^ && || ? : ,
{
using boost::spirit::lex::_start;
using boost::spirit::lex::_end;

this->self.add
(identifier   , ID_IDENTIFIER)
/*(white_space  , ID_WHITESPACE)*/
(integer_value, ID_INTEGER)
(hex_value    , ID_INTEGER)
(float_value  , ID_FLOAT)
(float_value2 , ID_FLOAT)
(punctuator   , ID_PUNCTUATOR);

this->self("WS") = white_space;
}
lex::token_def<std::string> identifier;
lex::token_def<lex::omit>   white_space;
lex::token_def<int>         integer_value;
lex::token_def<int>         hex_value;
lex::token_def<double>      float_value;
lex::token_def<double>      float_value2;
lex::token_def<>            punctuator;
};

template< typename Iterator, typename Skipper>
struct custom_grammar : qi::grammar<Iterator, Skipper>
{

template< typename TokenDef >
custom_grammar(const TokenDef& tok) : custom_grammar::base_type(ges)
{
ges = qi::token(ID_INTEGER) | qi::token(ID_FLOAT);
BOOST_SPIRIT_DEBUG_NODE(ges);
}
qi::rule<Iterator, Skipper > ges;
};

int main()
{
std::string test("1234 56");

typedef char const* Iterator;
typedef lex::lexertl::token<Iterator, lex::omit, boost::mpl::true_> token_type;
typedef lex::lexertl::lexer<token_type> lexer_type;
typedef qi::in_state_skipper<custom_lexer<lexer_type>::lexer_def> skipper_type;

typedef custom_lexer<lexer_type>::iterator_type iterator_type;

custom_lexer<lexer_type> my_lexer;
custom_grammar<iterator_type, skipper_type> my_grammar(my_lexer);

Iterator first = test.c_str();
Iterator last = &first[test.size()];

bool r = lex::tokenize_and_phrase_parse(first,last,my_lexer,my_grammar,qi::in_state( "WS" )[ my_lexer.self ]);

std::cout << std::boolalpha << r << "\n";
std::cout << "Remaining unparsed: '" << std::string(first,last) << "'\n";
}
6

Другие решения

Других решений пока нет …